一、项目背景
豆瓣电影提供最新的电影介绍及评论包括上映影片的影讯查询及购票服务。可以记录想看、在看和看过的电影电视剧 、顺便打分、写影评。极大地方便了人们的生活。
今天小编以电视剧(美剧)为例,批量爬取对应的电影,写入csv文档 。用户可以通过评分,更好的选择自己想要的电影。
二、项目目的
获取对应的电影名称,评分,详情链接,下载 电影的图片,保存文档。
三、涉及的库和网站
1、网址如下:
https://movie.douban.com/j/search_subjects?type=tv&tag=%E7%BE%8E%E5%89%A7&sort=recommend&page_limit=20&page_start={}
2、涉及的库:requests、fake_useragent、json、csv
3、软件:PyCharm
四、项目分析
1、如何多网页请求?
点击下一页时,每增加一页paged自增加20,用{}代替变换的变量,再用for循环遍历这网址,实现多个网址请求。
2. 如何获取真正请求的地址?
请求数据时,发现页面上并没有对应数据。其实豆瓣网采用javascript动态加载内容,防止采集。
(1)F12右键检查,找到Network,左边菜单Name , 找到第五个数据,点击Previ