爬虫框架相关的一点感想

主要来自于知乎上的二篇文章:


给推荐几个github上优秀的java爬虫项目
http://www.zhihu.com/question/31427895
利用爬虫技术能做到哪些很酷很有趣很有用的事情?
http://www.zhihu.com/question/27621722
selenium webdriver的各种driver
http://blog.csdn.net/five3/article/details/19085303


1、框架要解决的问题


a)模拟http请求,响应http请求,解析http请求
b)请求的线程调度
c)url请求的排重
b)数据持久化处理
其中a是重点

2、框架:

2.1 java语言


nutch:
apache下的开源爬虫程序,功能丰富,文档完整。有数据抓取解析以及存储的模块
Heritrix:
经历过很多次更新,使用的人比较多,功能齐全,文档完整,网上的资料也多。有自己的web管理控制台,包含了一个HTTP 服务器。操作者可以通过选择Crawler命令来操作控制台
crawler4j
因为只拥有爬虫的核心功能,所以上手极为简单


WebMagi
垂直、全栈式、模块化爬虫,个人感觉非常不错
ithub地址:https://github.com/code4craft


中文API:http://webmagic.io/docs/zh/


雅虎开源地址:
yahoo/anthelion · 

GitHub地址:https://github.com/yahoo/anthelion


2.2 python


scrapy项目 

3、涉及到的解析技术


页面解析技术:


JSoup:刮取、解析、操作和清理HTML
jquery选择器
xpath选择
正则表达式


模拟浏览器:

selenium主要模拟浏览器来处理ajax的动态请求,在web自动化测试中有很大的用途,在爬虫中也占有很重要的地位,其中:
selenium可支持的PC浏览器驱动包括:
FF driver【包含在各自语言的客户端里】
safari driver【包含在selenium server中】
ie driver
chrome driver 【第三方】
opera driver【第三方】


selenium可支持的伪浏览器驱动:
PhantomJS Driver【第三方】
HtmlUnit Driver【包含在selenium server中】


selenium可支持的移动端驱动:
Windows Phone driver 【第三方】
Selendroid -Selenium for Android【第三方】
ios-driver 【第三方】
Appium  支持iphone、ipad、android、FirefoxOS【第三方】


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小小她爹

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值