利用python+selenium_phantomjs批量获取百度指数第一步分析

最新推荐文章于 2023-04-05 15:24:33 发布

cheyuan4575

最新推荐文章于 2023-04-05 15:24:33 发布

阅读量171

点赞数

文章标签： python 爬虫

原文链接：https://my.oschina.net/u/3280685/blog/900108

版权

一、找到百度指数对应的数据

1.1、

1.2、

1.3、

结论：毛文本都找不着啊。根本就找不着根于百度指数数字相关的任何文本。

但是在style中找着了一个这个

将这个字符串与index.baidu.com拼起来，放进浏览器。会得到一个下载图片，这个图片打开来是这个样子滴。

可以看到这张图片中包含了相对应的百度指数中的数字。

只不过，百度通过加密，以style-css的形式，显示出相对应的"图片形"的数字。

从这个角度来看.想要从百度加密原理的方式来"破解"指数，是比较困难的。

二、

其困难有二、

2.1、没有办法确切的知道这套加密方式，可能百度有几套加密方法，可能刷新一次，加密方式就换了一种。（我试过，刷新过后，背景图片和css都换了。）所以“破解”这种加密方式是及其困难的。

2.2、在以后执行过程中，如果百度增加了加密方式，或者更换了加密方式，就彻底“懵逼”。

三、

那我们能不能尝试另外一种方式来采集百度指数呢？

当时是有的，只不过稍微“笨”一些。

思路

3.1、像人一样打开浏览器

3.2、像人一样打开相应的百度指数的页面

3.3、让机器定位百度指数的x,y坐标

3.4、截屏

3.5、在截图中找到第3.3部记录下来的坐标。截小图

3.6、识别图中的数字

技术细节详见：利用python+selenium_phantomjs批量获取百度指数第二步技术细节

这里只贴了一个主文件。全部代码请见我的公众号“爬虫张小呆”

有代码经验的同学请见我的github：

https://github.com/plus0318/BaiduIndex

转载于:https://my.oschina.net/u/3280685/blog/900108

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
利用python+selenium_phantomjs批量获取百度指数第一步分析

一、找到百度指数对应的数据 1.1、 1.2、 1.3、结论：毛文本都找不着啊。根本就找不着根于百度指数数字相关的任何文本。但是在style中找着了一个这个将这个字符串与index.baidu.com拼起来，放进浏览器。会得到一个下载图片，这个图片打开来是这个...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。