# 一、 目标站点分析
# 二、 流程框架:
# 1> 抓取单页内容
# 利用Requests请求目标站点,得到单个网页HTML代码,返回结果。
# 2> 正则表达式分析
# 根据HTML代码分析得到电影的名称、主演、上映时间、评分、图片链接等信息。
# 3> 开启循环及多线程
# 对多页内容遍历,开启多线程提高抓取速度
# 4> 保存至文件
# 通过文件的形式将结果保存,每一部电影一个结果一行Json字符串
# 三、 爬虫实战
# 一些方法的具体用法请参照:菜鸟教程 www.runoob.com
import json
from multiprocessing import Pool
import requests
from requests.exceptions import RequestException
import re
# 抓取一个网页的方法
def get_one_page(url):
# 设置RequestsException异常处理,防止请求网页异常
try:
response = requests.get(url)
# 如果响应的状态码为:200,返回响应内容,不是则返回空
if response.status_code == 200:
return response.text
return None
except RequestException:
return None
# 解析一个网页的方法
def parse_one_page(html):
# 先用re.compile() 将正则表达编译成正则对象,再使用re.findall(pattern, htm
py爬虫自学入门__9(Requests+正则表达式——爬取猫眼电影top100)
最新推荐文章于 2024-04-27 16:08:33 发布