流程框架:
抓取单页内容:利用requests请求目标站点,得到单个网页HTML代码,返回结果。
正则表达式分析:根据HTML代码分析得到电影和名称、主演、上映时间、评分、图片链接等信息。
开启循环及多线程:对多页内容遍历,开启多线程提高抓取速度。
保存至文件:通过文件的形式将内容结果保存,每一部电影一个结果一行Json字符串。
流程框架:
抓取单页内容:利用requests请求目标站点,得到单个网页HTML代码,返回结果。
正则表达式分析:根据HTML代码分析得到电影和名称、主演、上映时间、评分、图片链接等信息。
开启循环及多线程:对多页内容遍历,开启多线程提高抓取速度。
保存至文件:通过文件的形式将内容结果保存,每一部电影一个结果一行Json字符串。
转载于:https://www.cnblogs.com/779084229yyt/p/9692010.html