百度指数爬取

最新推荐文章于 2024-08-20 23:19:05 发布

fanfan-yi

最新推荐文章于 2024-08-20 23:19:05 发布

阅读量837

点赞数 8

文章标签：百度

本文链接：https://blog.csdn.net/niu_yifan/article/details/134641042

版权

本文讲述了在分析歌星影响力时，如何通过爬取微博粉丝、百度搜索和头条指数数据。作者遇到两个主要问题：URL中的word参数编码和百度添加的Cipher-Text请求头。通过逆向工程和频率控制策略，作者成功获取了数据。

摘要由CSDN通过智能技术生成

有分析需求需要一个能够衡量歌星或乐队影响力的指标。首先爬取了新浪微博相关主体的粉丝数量，这里有一个问题就是有的明星影响力很大但并不用微博，导致微博的粉丝数量并不多，如：周杰伦。为解决这一问题，又去爬取了百度搜索和头条指数，在爬取过程中遇到一些问题，特此记录一下。

使用的是python的requests。

其中共有2个坑，1是url中的params的编码，另一个是请求头中的Cipher-Text参数。

先进行网页元素分析，这里以搜索周杰伦为例，选取时间为2018-01-01至2023-10-28，页面显示结果如下：

按F12，检查页面元素，找到需要的接口https://index.baidu.com/api/SearchApi/index?area=0&word=[[%7B%22name%22:%22%E5%91%A8%E6%9D%B0%E4%BC%A6%22,%22wordType%22:1%7D]]&startDate=2018-01-01&endDate=2023-11-26

查看请求如下：

可以看到是get请求，url加params的样式。

坑1：

解码后的payload如下：

area: 0
word: [[{"name":"周杰伦","wordType":1}]]
startDate: 2011-01-01
endDate: 2021-05-05

编码后如下：

area: 0
word: [[%7B%22name%22:%22%E5%91%A8%E6%9D%B0%E4%BC%A6%22,%22wordType%22:1%7D]]
startDate: 2011-01-01
endDate: 2021-05-05

这里有第一个坑，area和date都很简单，直接使用python的urllib中的parse方法都能够进行编码，如下：

from urllib import parse

params = {
    "area": "0",
    "startDate": "2018-01-01",
    "endDate": "2023-11-26",
}


print(parse.urlencode(params))

##输出：'area=0&startDate=2018-01-01&endDate=2023-11-26'

如果使用同样的方法对word参数编码则会出现问题:

paras= {'word':[[{"name":"周杰伦","wordType":1}]]}

print(parse.urlencode(word))

# 输出：'word=%5B%5B%7B%27name%27%3A+%27%E5%91%A8%E6%9D%B0%E4%BC%A6%27%2C+%27wordType%27%3A+1%7D%5D%5D'

可以看到与网页的payload不符，将'[]'都进行了编码。

所以这里需要对内容单独来进行编码，最后再拼到一起加入url进行请求。（很简单，代码就不贴了。）