全部代码以及分析见GitHub:https://github.com/dta0502/douban-movie
我突然想看下有什么电影可以看。由于我偏爱剧情类电影,因此我用Python爬虫来爬取剧情类型的电影。
一、单个页面分析及爬取
1、页面分析
首先选择想要看的分类,如下图所示:
通过chrome的“检查”观察发现真实的URL为
https://movie.douban.com/j/new_search_subjects?sort=S&range=0,10&tags=%E7%94%B5%E8%A7%86%E5%89%A7&start=0&genres=%E5%89%A7%E6%83%85&countries=%E7%BE%8E%E5%9B%BD
sort:按热度排序为T、按时间排序为R、按评分排序为S
tags:类型
countries:地区
geners:形式(电影、电视剧…)
start:“加载更多”
如下图所示:
“加载更多”分析
1) 首先要能看网页发回来的JSON数据,步骤如下:
打开chrome的“检查”工具
切换到network界面
选择XHR
在页面上点击“加载更多”后会看到浏览器发出去的请求
Pre