业务需要每天抓取一些关键字的百度指数,花了一上午时间终于搞定了。
思路就是浏览器截图+OCR识别,因为百度指数的数值是采用html格式+加密二进制传输,怎么都是需要OCR的。
截图使用SELENIUM的WebDriver,用的是ChromeDriver。OCR用的是tesseract。编程语言是Java。
使用过程主要的坑如下:
1)百度指数需要用户名密码
需要调用WebDriver的findElement+sendKeys来处理登录过程。找到登录连接,触发click事件显示登录框,然后findelement+sendkey处理用户名密码。
(如果不从index.baidu.com作为起始页,也可以从passort.baidu.com直接模拟登录框就行)
2)截取百度指数位置的子图片
截整个页面的图比较容易,要获取指数所在的span的位置,直接调用html的元素的getSize和getLocation返回都是0,简单粗暴地用硬编码了。
3)OCR的时候,调用tesseract,识别数字,不需要安装额外的识别数据,直接调用tesseract test.png test.txt -l eng -psm 7 digits就可以把识别结果输出到文本文件。
默认的识别,6总是识别成5,还会有一些混淆的情况,这里是因为百度选择的字体,5和6非常接近,只有个别位置有一个像素的区别。识别之前的预处理是关键。目前我用的是放大2倍,灰度化,二值化,然后就可以很精确的识别了。识别这个事情,图片预处理非常非常重要。合理的预处理了,准确率如果还是不高,再考虑训练。
OCR的,参考如下地址的代码
http://download.csdn.net/detail/zhoushuyan/4050580
有问题可以联系QQ七七四一九二八QQ。
ps,如果要抓取一段时间的百度指数,综合网上的讨论,大致有两个方法。
1)根据百度指数页面的曲线,自己差值计算每一天的数值,跟实际值误差很小,完全不影响趋势的判断分析。这里还是需要图像处理曲线的图片。(这个方法比较实用,自动识别右侧的坐标,然后逐点找百度指数)
2)百度指数在显示每个点的指数的时候,会发送请求,这个请求相关的参数需要根据前面页面的返回结果来查找,请求的结果也是HTML+加密图像数据,要识别还是需要OCR的。