python爱心代码_百度搜索指数的爬取方法及代码

最新推荐文章于 2023-07-24 12:36:25 发布

weixin_39957951

最新推荐文章于 2023-07-24 12:36:25 发布

阅读量327

点赞数

文章标签： python爱心代码

最近几年经常在各平台看到有关「搜索指数动态排行」的视频，比如「青春有你2」决赛前一周，我在B站上传了一段「青你2」和「创造营2020」的人气选手指数动态榜的视频：

「青春有你2」VS「创造营2020」https://www.zhihu.com/video/1251285599131856896

后台看到的视频播放量、弹幕数、评论数等数据如下：

居然被播放了近 4w 次，评论里有问视频怎么做的，也有质疑数据来源的，这篇文章先讲一下数据是怎么来的。

全部数据都来自百度搜索指数，就是这个玩意儿：

网上关于百度指数的爬取方案有很多种，测试下来最方便快捷的是通过 Cookies 登录后爬取，这个场景不太适合用模拟浏览器的方式。基于开源代码（https://github.com/longxiaofei/spider-BaiduIndex）进行了一些 DIY，就满足我的需求了。

（原开源代码可能由于久未更新，局部存在一些问题，已做处理）

在查找爬虫方法过程中，大家提到次数最多的问题就是如何找到自己的 Cookies。登录百度后，在首页右键打开「开发者工具」，然后点击「Application」：

然后在 Name 那一列找「BDUSS」，复制后面对应的 Value，很长的一串字符~

把这段字符串赋值给 demo.py 中的变量 cookies，别忘了前面加 "BDUSS="，然后就可以实现自动登录了。接下来就可以在 keywords 填写你要爬的关键词列表了，设置要爬取指数的起始时间 start_date 和结束时间 end_date，如下：

cookies = "BDUSS=你的Cookies"

keywords = ['刘雨昕', '虞书欣', '喻言', '许佳琪', '孔雪儿', '赵小棠', '金子涵', '安崎', '谢可寅', '乃万']

baidu_index = BaiduIndex(
    keywords=keywords,
    start_date='2020-03-10',
    end_date='2020-05-27',
    cookies=cookies,
    )

按你的需求修改好各个变量后，运行 demo.py，然后你就可以获得像这样的数据了：

weixin_39957951

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
python爱心代码_百度搜索指数的爬取方法及代码

最近几年经常在各平台看到有关「搜索指数动态排行」的视频，比如「青春有你2」决赛前一周，我在B站上传了一段「青你2」和「创造营2020」的人气选手指数动态榜的视频：「青春有你2」VS「创造营2020」https://www.zhihu.com/video/1251285599131856896后台看到的视频播放量、弹幕数、评论数等数据如下：居然被播放了近 4w 次，评论里有问视频怎么做的，也有质疑...
复制链接

扫一扫