百度指数抓取思路

业务需要每天抓取一些关键字的百度指数,花了一上午时间终于搞定了。

思路就是浏览器截图+OCR识别,因为百度指数的数值是采用html格式+加密二进制传输,怎么都是需要OCR的。

截图使用SELENIUM的WebDriver,用的是ChromeDriver。OCR用的是tesseract。编程语言是Java。

使用过程主要的坑如下:

1)百度指数需要用户名密码

需要调用WebDriver的findElement+sendKeys来处理登录过程。找到登录连接,触发click事件显示登录框,然后findelement+sendkey处理用户名密码。

(如果不从index.baidu.com作为起始页,也可以从passort.baidu.com直接模拟登录框就行)

2)截取百度指数位置的子图片

截整个页面的图比较容易,要获取指数所在的span的位置,直接调用html的元素的getSize和getLocation返回都是0,简单粗暴地用硬编码了。

3)OCR的时候,调用tesseract,识别数字,不需要安装额外的识别数据,直接调用tesseract test.png test.txt -l eng -psm 7 digits就可以把识别结果输出到文本文件。

默认的识别,6总是识别成5,还会有一些混淆的情况,这里是因为百度选择的字体,5和6非常接近,只有个别位置有一个像素的区别。识别之前的预处理是关键。目前我用的是放大2倍,灰度化,二值化,然后就可以很精确的识别了。识别这个事情,图片预处理非常非常重要。合理的预处理了,准确率如果还是不高,再考虑训练。


OCR的,参考如下地址的代码

http://download.csdn.net/detail/zhoushuyan/4050580



有问题可以联系QQ七七四一九二八QQ。


ps,如果要抓取一段时间的百度指数,综合网上的讨论,大致有两个方法。

1)根据百度指数页面的曲线,自己差值计算每一天的数值,跟实际值误差很小,完全不影响趋势的判断分析。这里还是需要图像处理曲线的图片。(这个方法比较实用,自动识别右侧的坐标,然后逐点找百度指数)

2)百度指数在显示每个点的指数的时候,会发送请求,这个请求相关的参数需要根据前面页面的返回结果来查找,请求的结果也是HTML+加密图像数据,要识别还是需要OCR的。


评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值