新浪微博爬虫版本已趋于稳定,但无法参赛了

35 篇文章 0 订阅
9 篇文章 0 订阅

已经收到通知,我的新浪微博爬虫Sinawler,不符合应用开发者协议,所以不能参赛。

不过我将继续完善我的新浪微博爬虫。

现在的2.2.0.3版本已经较为稳定,以现在测试的结果看,已经能够满足自用。与最初的版本相比,有以下重要改进:

1、改为了双线程同时爬取用户信息和微博及评论信息,效率更高

2、界面上提供参数设置,灵活方便

3、抛弃app.config配置文件,自己实现配置信息的加密存储,保护数据库帐号信息

4、自动调整请求频率,防止超限,也避免过慢,降低效率

5、增强对爬虫的控制,可随时暂停、继续、停止爬虫

6、改进用户体验

项目主页:http://code.google.com/p/sinawler/

未来重点改进:

提供标准的数据库脚本(现在的是针对SQL Server的,而且有冗余信息)

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值