百度指数抓取思路

最新推荐文章于 2024-06-01 22:37:44 发布

jackflit

最新推荐文章于 2024-06-01 22:37:44 发布

阅读量9.4k

点赞数 1

分类专栏：辅助工具文章标签： selenium webdrive ocr tesseract 百度指数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jackflit/article/details/48972841

版权

辅助工具专栏收录该内容

7 篇文章 0 订阅

订阅专栏

业务需要每天抓取一些关键字的百度指数，花了一上午时间终于搞定了。

思路就是浏览器截图+OCR识别，因为百度指数的数值是采用html格式+加密二进制传输，怎么都是需要OCR的。

截图使用SELENIUM的WebDriver，用的是ChromeDriver。OCR用的是tesseract。编程语言是Java。

使用过程主要的坑如下：

1）百度指数需要用户名密码

需要调用WebDriver的findElement+sendKeys来处理登录过程。找到登录连接，触发click事件显示登录框，然后findelement+sendkey处理用户名密码。

（如果不从index.baidu.com作为起始页，也可以从passort.baidu.com直接模拟登录框就行）

2）截取百度指数位置的子图片

截整个页面的图比较容易，要获取指数所在的span的位置，直接调用html的元素的getSize和getLocation返回都是0，简单粗暴地用硬编码了。

3）OCR的时候，调用tesseract，识别数字，不需要安装额外的识别数据，直接调用tesseract test.png test.txt -l eng -psm 7 digits就可以把识别结果输出到文本文件。

默认的识别，6总是识别成5，还会有一些混淆的情况，这里是因为百度选择的字体，5和6非常接近，只有个别位置有一个像素的区别。识别之前的预处理是关键。目前我用的是放大2倍，灰度化，二值化，然后就可以很精确的识别了。识别这个事情，图片预处理非常非常重要。合理的预处理了，准确率如果还是不高，再考虑训练。

OCR的，参考如下地址的代码

http://download.csdn.net/detail/zhoushuyan/4050580

有问题可以联系QQ七七四一九二八QQ。

ps，如果要抓取一段时间的百度指数，综合网上的讨论，大致有两个方法。

1）根据百度指数页面的曲线，自己差值计算每一天的数值，跟实际值误差很小，完全不影响趋势的判断分析。这里还是需要图像处理曲线的图片。（这个方法比较实用，自动识别右侧的坐标，然后逐点找百度指数）

2）百度指数在显示每个点的指数的时候，会发送请求，这个请求相关的参数需要根据前面页面的返回结果来查找，请求的结果也是HTML+加密图像数据，要识别还是需要OCR的。

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
5
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

jackflit CSDN认证博客专家 CSDN认证企业博客

码龄22年

24: 原创

17万+: 周排名

3万+: 总排名

8万+: 访问

: 等级

858: 积分

15: 粉丝

27: 获赞

13: 评论

29: 收藏

私信

关注

热门文章

分类专栏

最新评论

安装VC++Redist报错0x80070003的解决办法
jackflit: 最大的惊喜是双人同行，竟然适配了我的老掉牙小霸王手柄。这些年不做windows编程了，对新版本windows机制没有以前理解了，估计现在做windows开发的也少之又少了。其实看0x80070003里提到的错误日志，日志里最后就是关于package cache的，手头也没有windows api hook的工具去分析最后可能失败。还好csdn还是有靠谱的程序员。
支持ajax的爬虫
weixin_45876980: 第一条命令就出现错误了: 找不到或无法加载主类 webdriver.chrome.driver=chromedriver.exe要怎么搞
支持ajax的爬虫
weixin_45876980: 博主，能发一下crawljax官网地址吗找不到
死磕Visual Studio 2010 unsuccessfulbuild因为AlwaysCreate顽疾
zoneg: 佩服这种死磕精神
百度指数抓取-趋势截图+估算方法
qq_21281541: 淘宝搜索百度指数提取，有专门帮助提取的。

最新文章

目录

评论 5

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。