主要来自于知乎上的二篇文章:
给推荐几个github上优秀的java爬虫项目
http://www.zhihu.com/question/31427895
利用爬虫技术能做到哪些很酷很有趣很有用的事情?
http://www.zhihu.com/question/27621722
selenium webdriver的各种driver
http://blog.csdn.net/five3/article/details/19085303
a)模拟http请求,响应http请求,解析http请求
b)请求的线程调度
c)url请求的排重
b)数据持久化处理
其中a是重点
nutch:
apache下的开源爬虫程序,功能丰富,文档完整。有数据抓取解析以及存储的模块
Heritrix:
经历过很多次更新,使用的人比较多,功能齐全,文档完整,网上的资料也多。有自己的web管理控制台,包含了一个HTTP 服务器。操作者可以通过选择Crawler命令来操作控制台
crawler4j
因为只拥有爬虫的核心功能,所以上手极为简单
WebMagi
垂直、全栈式、模块化爬虫,个人感觉非常不错
ithub地址:https://github.com/code4craft
中文API:http://webmagic.io/docs/zh/
雅虎开源地址:
yahoo/anthelion ·
scrapy项目
页面解析技术:
JSoup:刮取、解析、操作和清理HTML
jquery选择器
xpath选择
正则表达式
模拟浏览器:
selenium主要模拟浏览器来处理ajax的动态请求,在web自动化测试中有很大的用途,在爬虫中也占有很重要的地位,其中:
selenium可支持的PC浏览器驱动包括:
FF driver【包含在各自语言的客户端里】
safari driver【包含在selenium server中】
ie driver
chrome driver 【第三方】
opera driver【第三方】
selenium可支持的伪浏览器驱动:
PhantomJS Driver【第三方】
HtmlUnit Driver【包含在selenium server中】
selenium可支持的移动端驱动:
Windows Phone driver 【第三方】
Selendroid -Selenium for Android【第三方】
ios-driver 【第三方】
Appium 支持iphone、ipad、android、FirefoxOS【第三方】
给推荐几个github上优秀的java爬虫项目
http://www.zhihu.com/question/31427895
利用爬虫技术能做到哪些很酷很有趣很有用的事情?
http://www.zhihu.com/question/27621722
selenium webdriver的各种driver
http://blog.csdn.net/five3/article/details/19085303
1、框架要解决的问题
a)模拟http请求,响应http请求,解析http请求
b)请求的线程调度
c)url请求的排重
b)数据持久化处理
其中a是重点
2、框架:
2.1 java语言
nutch:
apache下的开源爬虫程序,功能丰富,文档完整。有数据抓取解析以及存储的模块
Heritrix:
经历过很多次更新,使用的人比较多,功能齐全,文档完整,网上的资料也多。有自己的web管理控制台,包含了一个HTTP 服务器。操作者可以通过选择Crawler命令来操作控制台
crawler4j
因为只拥有爬虫的核心功能,所以上手极为简单
WebMagi
垂直、全栈式、模块化爬虫,个人感觉非常不错
ithub地址:https://github.com/code4craft
中文API:http://webmagic.io/docs/zh/
雅虎开源地址:
yahoo/anthelion ·
GitHub地址:https://github.com/yahoo/anthelion
2.2 python
scrapy项目
3、涉及到的解析技术
页面解析技术:
JSoup:刮取、解析、操作和清理HTML
jquery选择器
xpath选择
正则表达式
模拟浏览器:
selenium主要模拟浏览器来处理ajax的动态请求,在web自动化测试中有很大的用途,在爬虫中也占有很重要的地位,其中:
selenium可支持的PC浏览器驱动包括:
FF driver【包含在各自语言的客户端里】
safari driver【包含在selenium server中】
ie driver
chrome driver 【第三方】
opera driver【第三方】
selenium可支持的伪浏览器驱动:
PhantomJS Driver【第三方】
HtmlUnit Driver【包含在selenium server中】
selenium可支持的移动端驱动:
Windows Phone driver 【第三方】
Selendroid -Selenium for Android【第三方】
ios-driver 【第三方】
Appium 支持iphone、ipad、android、FirefoxOS【第三方】