【Python】学习笔记 #4 —— 挖掘“看不见”的数据

目录

导语:

分析:

步骤:

总结:


导语:

前段时间试着去爬豆瓣电影数据时( 豆瓣电影 )

右击检查能够找到每个电影的封面,标题,参演等等,而当查看网页源代码时,却发现网页页面的源代码并不包含电影内容的信息。

而我们知道,python中requests请求的是网页的源代码,如果请求到的源代码中不包含电影内容的信息的话,那自然就不能从源代码中筛选出需要的电影数据。

面对这种情况我们该怎么办呢?

分析:

源代码中没有的内容,右击检查时却能看见数据,那必然是浏览器偷偷从后台向服务器请求了数据,再通过解析这些数据,展示在页面上。而这些操作,基本使用着Ajax技术:在客户端和服务器之间插入一个"中转站",这个"中转站"就是XMLHttpRequest对象(XHR)

因此,只需要能找到浏览器向服务器请求到的数据,大概率就能获取到电影数据。

步骤:

右击检查,定位到XHR,刷新页面,果不其然,后台请求到了三条数据:

分别点击preview预览三条数据,排除掉中间的那条数据,将其他两条数据做保留。

数据格式都是json,那就将复制文件地址并打开:

发现确确实实,电影排行榜的数据都被打包在json中,因此只需要获取到json数据即可获取到电影内容。

再通过分析一下两个网址:

top_list?type=11&interval_id=100%3A90&action=&start=0&limit=1

top_list?type=11&interval_id=100%3A90&action=&start=0&limit=20

比较发现,除了字段limit不一样外,其余内容完全相同,因此我们可以推断:

start表示数据的开始,是第0条数据。

limit表示数据的结束,是最后一条数据(不包含)。

理论部分推断完毕,实践看下结果:

top_list?type=11&interval_id=100%3A90&action=&start=0&limit=3

按照推断,将会出现从0开始,到3结束但不包含3的3条数据:

的确只有3条数据,理论证实,我们只需要修改limit数据的大小,即可自定义获取排行榜中多少条的数据。

而取出数据的方式,可以使用python中循环的方法。

总结:

通过比较检查,源代码中的信息,我们通常能够找到很多“看不见”的数据,而要将他们挖掘出来,就需要我们学会变通,灵活运用各种策略。

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值