目录
导语:
前段时间试着去爬豆瓣电影数据时( 豆瓣电影 )
右击检查能够找到每个电影的封面,标题,参演等等,而当查看网页源代码时,却发现网页页面的源代码并不包含电影内容的信息。
而我们知道,python中requests请求的是网页的源代码,如果请求到的源代码中不包含电影内容的信息的话,那自然就不能从源代码中筛选出需要的电影数据。
面对这种情况我们该怎么办呢?
分析:
源代码中没有的内容,右击检查时却能看见数据,那必然是浏览器偷偷从后台向服务器请求了数据,再通过解析这些数据,展示在页面上。而这些操作,基本使用着Ajax技术:在客户端和服务器之间插入一个"中转站",这个"中转站"就是XMLHttpRequest对象(XHR)
因此,只需要能找到浏览器向服务器请求到的数据,大概率就能获取到电影数据。
步骤:
右击检查,定位到XHR,刷新页面,果不其然,后台请求到了三条数据:
分别点击preview预览三条数据,排除掉中间的那条数据,将其他两条数据做保留。
数据格式都是json,那就将复制文件地址并打开:
发现确确实实,电影排行榜的数据都被打包在json中,因此只需要获取到json数据即可获取到电影内容。
再通过分析一下两个网址:
top_list?type=11&interval_id=100%3A90&action=&start=0&limit=1
top_list?type=11&interval_id=100%3A90&action=&start=0&limit=20
比较发现,除了字段limit不一样外,其余内容完全相同,因此我们可以推断:
start表示数据的开始,是第0条数据。
limit表示数据的结束,是最后一条数据(不包含)。
理论部分推断完毕,实践看下结果:
top_list?type=11&interval_id=100%3A90&action=&start=0&limit=3
按照推断,将会出现从0开始,到3结束但不包含3的3条数据:
的确只有3条数据,理论证实,我们只需要修改limit数据的大小,即可自定义获取排行榜中多少条的数据。
而取出数据的方式,可以使用python中循环的方法。
总结:
通过比较检查,源代码中的信息,我们通常能够找到很多“看不见”的数据,而要将他们挖掘出来,就需要我们学会变通,灵活运用各种策略。