python百度爬虫_Python爬虫 - 简单抓取百度指数

本文介绍了如何使用Python爬取并解密百度指数数据。通过分析网站请求,找到解密方法,并提供了完整的Python代码示例,实现从获取uniqid、ptbk到解密数据的完整流程。
摘要由CSDN通过智能技术生成

前言有点忙,没空写东西,这是之前写的,加了些配图而已

这次要爬的网站是百度指数

正文

一、分析

打开网站(百度指数),呈现出来是这样的

如果搜索的话就需要登陆了,如果没有什么特别频繁的请求的话,直接登陆复制Cookie就完事了

这里以 酷安 为例搜索

这一栏是选择时间范围的,拖拽它能将范围选择更广

我将其拖拽至2011,调试窗口可以看到请求,是个GET请求,参数有四个,除了 area 其他的都很好理解

切换到 Preview 预览窗口,通过分析,个人认为比较可疑的几个Key有这些:uniqid、all、pc、wise、data

其中data可以看到应该是加密了的,all是表示全部数据,pc是指pc端,wise是移动端,这些可以在js文件里找到;首先先搞清楚这个像加密了的data是怎么解密的;我们现在知道这个数据是json格式,那么它处理肯定要从中取出这些data,所以,重新刷新一下网页,目的是为了让所有js都能加载出来,然后利用搜索功能从中找。搜索过程就不上图了,我是搜索 decrypt找到的;首先,我用decrypt找到了一个js文件,其中有一个名为decrypt的方法

这个js文件中有很多decrypt的搜索结果,在不知道多少行处找到了一个名为 fetchThrendIndexLive 的方法,这个方法名用我工地英语翻译为 获取趋势指数

这里调用了名为decrypt的方法,是不是上面那个我不知道<

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值