Python之最简单爬虫
前言:由于懒、没时间、也没啥技术也不太会表达,好久没写博客了,但一直听说Python有多厉害的,爬虫有多厉害的,而我没玩过,也不太清楚是个啥,搞得我很好奇,很早就想玩玩她了,所以最近学习了一下Python,还好由于我有一些JAVA的基础,感觉也不是很难,还是比较容易理解的,也算是入门了吧,话不多说,盘她~~
首先,解析下Python和爬虫(以我的理解,具体的请百度):
Python:一种开发语言,有点神奇,有点简单粗暴,基本语法类似于JAVA,C,C++吧!!!
爬虫:就是爬取网页等请求得到的数据,具体是请求网页URL得到网页的HTML,分析HTML,得到想要的数据,然后想干啥就干啥啦!!!
一、爬虫步骤:
(1)明确目的
(2)找到数据对应的网页
(3)分析网页的结构找到数据所在的标签位置
(4)模拟HTTP请求,向服务器发送请求获取到服务器返回给我们的HTML
(5)用正则表达式提取我们要的数据
(6)分析、精炼、展示、保存数据
二、我们的目标:
爬取爱奇艺网页最新电影名和评分,并高到低排序展示!!!
三、编码实现:
具体请看注解,还是挺详细的吧!!!
import re
from urllib import request
class Spider():
# 要爬取的url
url = 'https://www.iqiyi.com/dianying/?vfrm=pcw_home&vfrmblk=C&vfrmrst=712211_channel_dianying'
# 正则表达式
root_pattern = '<p class="main score">([\s\S]*?)</p>'
grade_pattern = '<span class="text-score">([\s\S]*?)</span>'
name_pattern = 'html">([\s\S]*?)</a>'
# 私有方法:获取html
def __fetch_content(self):