百度指数是一款非常好用的工具,通过它我们能知道某些关键词在过去的一些日子里的热度变化趋势并能够对这些数据进行分析。如果能用得好百度指数,我们将能产出巨大的价值。你可以通过关注文章下方的Python实用宝典公众号,回复百度指数突变点获得本项目完整源代码。
今天的教程主要是来教大家如何找出百度指数中突变值的位置,如图所示画框框的部分:
30天的数据流中很容易通过人工的方法找到突变数据的位置,但如果是180天呢?这可就不好通过人工的方式来查找了:
如何使用Python自动找出这180天里的突变点?由于这里涉及到了对时间序列的突变点的检测,我们可以使用一种叫Pettitt突变点检测算法。
1.获取数据
通过开发者工具找到数据接口,结果发现其接口返回来的数据进行了加密:
看起来就很像字符串替换,如果要从头开始解密的话需要做一些对比工作(把源数据和该加密数据放一起进行比较)或者直接看前端源代码 。由于这里不是今天要讲的重点内容,我直接使用了他人的开源项目并做了一些修改, 百度指数爬虫 :https://github.com/longxiaofei/spider-BaiduIndex/tree/master/new_spider_without_selenium
你可以通过关注文章最下方的公众号(Python实用宝典),回复百度指数突变点获得本文所有的源代码。
调用接口爬取数据,然后将爬取到的数据按照关键词存放到数组中,你可以很轻易地修改