网络爬虫
文章平均质量分 75
AJAXHu
这个作者很懒,什么都没留下…
展开
-
开发网络爬虫应该怎样选择爬虫框架?
开发网络爬虫应该选择Nutch、Crawler4j、WebMagic、scrapy、WebCollector还是其他的?原创 2014-12-24 14:32:26 · 15784 阅读 · 2 评论 -
WebCollector 2.72自定义Http请求插件(定制User-Agent和Cookie等请求头)
WebCollector从2.72版本开始,默认使用OkHttpRequester作为Http请求插件。继承OkHttpRequester可以轻松地定制各种Http请求功能,如设置User-Agent、Cookie等Http请求头,设置请求方法(GET/POST)和表单数据等。官网地址:https://github.com/CrawlScript/WebCollectorOkHttpReq...原创 2018-07-19 01:40:03 · 5611 阅读 · 3 评论 -
WebCollector 2.72处理301/302重定向、404 Not Found等Http状态
官网地址:https://github.com/CrawlScript/WebCollectorWebCollector的Http请求结果有两种状态:请求成功和请求失败。这两种状态的定义如下:请求成功:服务器成功地返回了请求URL的状态及数据。这里注意,不是状态码200才叫请求成功,一般情况下,301/302/404都可能对应请求成功。例如对于404,服务器正确地告诉了你,当前的URL不存...原创 2018-07-19 12:33:02 · 3710 阅读 · 2 评论