百度指数最新采集方案(快速、准确)

原文作者: 西安鲲之鹏

原文链接:http://www.site-digger.com/html/articles/20141001/82.html

本方案是2014年9月份最新的思路。在6月份方案基础上做了重大改进,大大提高的采集的效率。
 
综合了下面两种思路:
1)折线图偏移算法;一次查询可以获取N天的数据(6月份的方案一次查询只能获取一天的数据),减少被封(账户/IP)的概率。
2)Webkit模拟鼠标移动,OCR精确提取;当偏移算法误差较大时自动进行校正。
在加快速度的同时也保证了精确度。
 
该方案一次查询最多可以采集6个月(N=180天)的数据。
算法1)的精确度跟查询的间隔时间(间隔时间=终止日期-起始日期)有关,误差值跟间隔天数成正比。
 
具体的有一些数字供参考:
 
* 间隔时间1天误差:  0.1%
* 间隔时间10天误差: 0.2%  建议采用该间隔!
* 间隔时间30天误差:1%
 
下面是演示视频。以采集mh17关键字 2014-07-16到2014-07-28的数据为例。
 

 特别说明:该文章为西安鲲之鹏的原创文章 ,你除了可以发表评论外,还可以转载到你的网站或博客,但是请保留源地址,谢谢!!(尊重他人劳动,你我共同努力)

转载于:https://my.oschina.net/webscraping/blog/512347

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值