原文链接:http://www.site-digger.com/html/articles/20141001/82.html
本方案是2014年9月份最新的思路。在6月份方案基础上做了重大改进,大大提高的采集的效率。
综合了下面两种思路:
1)折线图偏移算法;一次查询可以获取N天的数据(6月份的方案一次查询只能获取一天的数据),减少被封(账户/IP)的概率。
2)Webkit模拟鼠标移动,OCR精确提取;当偏移算法误差较大时自动进行校正。
在加快速度的同时也保证了精确度。
该方案一次查询最多可以采集6个月(N=180天)的数据。
算法1)的精确度跟查询的间隔时间(间隔时间=终止日期-起始日期)有关,误差值跟间隔天数成正比。
具体的有一些数字供参考:
* 间隔时间1天误差: 0.1%
* 间隔时间10天误差: 0.2% 建议采用该间隔!
* 间隔时间30天误差:1%
下面是演示视频。以采集mh17关键字 2014-07-16到2014-07-28的数据为例。
特别说明:该文章为西安鲲之鹏的原创文章 ,你除了可以发表评论外,还可以转载到你的网站或博客,但是请保留源地址,谢谢!!(尊重他人劳动,你我共同努力)