需要爬取的链接为https://ssr1.scrape.center/,这个网站里面包含一些电影信息,要完成的目标有:
*利用requests爬取这个站点每一页的电影列表,顺着列表再爬取每个电影的详情页;
*用正则表达式提取每部电影的名称、封面、类别、上映时间、评分、剧情简介等内容;
*把以上爬取的内容保存为JSON文本文件;
*使用多进程实现爬取的加速。
首先要定义一些基础的变量,并引入一些必要的库:
import requests
import logging
import re
from urllib.parse import urljoin
logging.basicConfig(level=logging.INFO,format=&