webcollector
文章平均质量分 51
AJAXHu
这个作者很懒,什么都没留下…
展开
-
WebCollector 2.72处理301/302重定向、404 Not Found等Http状态
官网地址:https://github.com/CrawlScript/WebCollectorWebCollector的Http请求结果有两种状态:请求成功和请求失败。这两种状态的定义如下:请求成功:服务器成功地返回了请求URL的状态及数据。这里注意,不是状态码200才叫请求成功,一般情况下,301/302/404都可能对应请求成功。例如对于404,服务器正确地告诉了你,当前的URL不存...原创 2018-07-19 12:33:02 · 3710 阅读 · 2 评论 -
Lazy爬虫配置教程
LAZY是基于WebCollector的一个简易爬虫,可以通过配置采集网页持久化到mongodb中。使用方法进入LAZY主页,下载Lazy-version-bin.zip,解压下载mongodb,由于国内下载mongodb较慢,提供两个百度网盘下载地址:Linux 64 Win 64配置并启动mongodb(按照一般流程即可)进入Lazy-version-bin.zip解压后的文件夹,用命令原创 2016-02-16 12:54:28 · 2739 阅读 · 0 评论 -
WebCollector教程——爬取搜索引擎
本教程演示了WebCollector 2.20的新特性。下载WebCollector最新jar包可在WebCollector github主页下载。MetaData:MetaData是每个爬取任务的附加信息,灵活应用MetaData可以大大简化爬虫的设计。 例如Post请求往往需要包含参数,而传统爬虫单纯使用URL来保存参数的方法不适合复杂的POST请求。一些爬取任务希望获取遍历树的深度信息,这也原创 2016-02-16 12:56:57 · 4190 阅读 · 0 评论 -
WebCollector教程——在Eclipse项目中配置使用WebCollector爬虫
WebCollector教程——在Eclipse项目中配置使用WebCollector爬虫原创 2016-02-16 13:00:04 · 7354 阅读 · 1 评论 -
WebCollector网页正文提取
网页正文提取项目ContentExtractor已并入WebCollector维护。 WebCollector的正文抽取API都被封装为ContentExtractor类的静态方法。 可以抽取结构化新闻,也可以只抽取网页的正文(或正文所在Element)。 正文抽取效果指标 :比赛数据集CleanEval P=93.79% R=86.02% F=86.72%常见新闻网站数据集 P=97.87%原创 2016-02-16 12:59:10 · 5036 阅读 · 1 评论 -
JAVA爬虫WebCollector 2.x入门教程——基本概念
WebCollector是一个无须配置、便于二次开发的JAVA爬虫框架(内核),它提供精简的的API,只需少量代码即可实现一个功能强大的爬虫。WebCollector-Hadoop是WebCollector的Hadoop版本,支持分布式爬取。目前WebCollector在Github上维护:https://github.com/CrawlScript/WebCollector1.WebCollect原创 2016-02-16 12:58:00 · 5800 阅读 · 0 评论 -
WebCollector 2.x入门教程——基本概念
WebCollector是一个无须配置、便于二次开发的JAVA爬虫框架(内核),它提供精简的的API,只需少量代码即可实现一个功能强大的爬虫。WebCollector-Hadoop是WebCollector的Hadoop版本,支持分布式爬取。原创 2015-12-25 09:44:32 · 4429 阅读 · 0 评论 -
网页存储解决方案
很多数据采集任务并不复杂,例如门户网站新闻采集,代码可以在10分钟内编写,但采集到的网页如何存储缺成为一个大问题。下面先给出一些常见的,但本人认为是错误的方法:1.将网页按照网站目录结构存储先不考虑小文件存储的问题,网站结构和文件目录并不能做到一一对应,例如一个网站同时包含下面两个URL,两个URL并不指向同一页面:http://www.abc.com/test/ahttp://www.abc.c原创 2016-02-16 12:55:01 · 1638 阅读 · 0 评论 -
JAVA爬虫WebCollector教程列表
JAVA爬虫WebCollector教程列表WebCollector教程——在Eclipse项目中配置使用WebCollector爬虫WebCollector教程——爬取搜索引擎WebCollector教程——获取当前深度WebCollector教程——爬取新浪微博原创 2014-08-28 14:21:57 · 6857 阅读 · 8 评论 -
将WebCollector导入普通项目
查看教程:WebCollector教程——在Eclipse项目中配置使用WebCollector爬虫原创 2014-10-03 21:18:02 · 1965 阅读 · 0 评论 -
WebCollector分布式爬取
WebCollector-Hadoop是WebCollector的分布式版本,目前为beta版本项目地址:WebCollector-HadoopWebCollector-Hadoop需要运行在Hadoop上,因此最好在Linux中运行。用本地模式运行WebCollector-Hadoop并不需要配置hadoop环境,WebCollector-Hadoop项目是一个maven项目,本身包含了hadoo原创 2016-02-16 12:53:50 · 4041 阅读 · 1 评论 -
使用Spring JDBC持久化WebCollector爬取的数据
1.导入Spring JDBC的依赖<dependency> <groupId>mysql</groupId> <artifactId>mysql-connector-java</artifactId> <version>5.1.31</version></dependency><dependency> <groupId>org.springframework</原创 2016-02-16 12:53:04 · 5336 阅读 · 0 评论 -
WebCollector爬取CSDN博客
新闻、博客爬取是数据采集中常见的需求,也是最容易实现的需求。一些开发者利用HttpClient和Jsoup等工具也可以实现这个需求,但大多数实现的是一个单线程爬虫,并且在URL去重和断点爬取这些功能上控制地不好,爬虫框架可以很好地解决这些问题,开源爬虫框架往往都自带稳定的线程池、URL去重机制和断点续爬功能。爬虫框架往往也会自带网页解析功能,支持xpath或css选择器(底层多用Jsoup实现)。使原创 2016-02-16 12:52:20 · 3735 阅读 · 1 评论 -
WebCollector 2.72自定义Http请求插件(定制User-Agent和Cookie等请求头)
WebCollector从2.72版本开始,默认使用OkHttpRequester作为Http请求插件。继承OkHttpRequester可以轻松地定制各种Http请求功能,如设置User-Agent、Cookie等Http请求头,设置请求方法(GET/POST)和表单数据等。官网地址:https://github.com/CrawlScript/WebCollectorOkHttpReq...原创 2018-07-19 01:40:03 · 5611 阅读 · 3 评论 -
WebCollector设置代理
WebCollector自带一个Proxys类,通过Proxys.nextRandom()方法可以随机获取加入的代理。 通过Proxys.add(“ip”,”端口号”);添加代理。 如果本机也参与http请求,可用Proxys.addEmpty()方法将本机加入。 覆盖Crawler的getResponse()方法,即可自定义使用随机代理的http请求: @Overridepublic H原创 2016-02-16 12:58:27 · 4650 阅读 · 0 评论 -
WebCollector教程——获取当前深度
本教程演示了WebCollector 2.20的新特性。下载WebCollector最新jar包可在WebCollector github主页下载。内容:本教程和深度遍历没有任何关系,只是讲解如何获取当前网页在遍历树中的深度。 利用2.20版本中的新特性MetaData可以轻松实现这个功能。import cn.edu.hfut.dmic.webcollector.model.CrawlDatum;原创 2016-02-16 12:57:25 · 4055 阅读 · 0 评论 -
WebCollector 2.x 入门教程
WebCollector 2.x 入门教程原创 2014-08-06 21:32:47 · 34729 阅读 · 11 评论 -
用WebCollector爬取新浪微博数据
用WebCollector可以轻松爬取新浪微博的数据.原创 2014-09-01 17:58:57 · 20062 阅读 · 13 评论 -
WebCollector 2.x 教程列表
WebCollector教程WebCollector教程——在Eclipse项目中配置使用WebCollector爬虫JAVA爬虫WebCollector 2.x入门教程——基本概念WebCollector爬取CSDN博客使用Spring JDBC持久化WebCollector爬取的数据WebCollector自定义http请求WebCollector设置代理WebCollector内原创 2016-05-29 06:03:49 · 1727 阅读 · 0 评论 -
WebCollector内核开发——定制Http请求
本教程适用于WebCollector 2.27版本或更高。在WebCollector中,使用最多的爬取器应该是BreadthCrawler,BreadthCrawler是用WebCollector的内核开发的一个插件,并不属于内核。如果只是简单定制Http请求,例如加入Cookie、UserAgent等Http头,使用POST操作等,使用BreadthCrawler插件即可完成,可以参考教程WebC原创 2016-02-19 17:33:13 · 3646 阅读 · 0 评论 -
WebCollector教程——爬取新浪微博
下载本教程需要两套jar包,WebCollector核心jar包和selenium的jar包。WebCollector最新jar包可在WebCollector github主页下载。selenium的jar包点击进入下载页面。内容:利用Selenium获取登陆新浪微博weibo.cn的cookie(WeiboCN.java)利用WebCollector和获取的cookie爬取新浪微博并抽取数据(原创 2016-02-16 12:56:14 · 6945 阅读 · 0 评论 -
WebCollector爬取JS加载的数据
WebCollector爬取JS加载的数据只需要自定义一个Requester即可,下面这个例子可以获取加载完成后的页面(但对于一边滚动一边加载数据的网页,需要修改代码)代码需要依赖WebCollector内核和selenium相关jar包:selenium及相关jar包下载import cn.edu.hfut.dmic.webcollector.net.HttpResponse;import cn原创 2016-02-16 12:55:36 · 7352 阅读 · 2 评论 -
WebCollector自定义http请求
WebCollector可以自定义http请求,WebCollector的http请求由Requester完成,BreadthCrawler和RamCrawler本身就实现了Requester接口,默认情况下它们使用自身作为Requester。自定义http请求只要override它们的getResponse方法即可。下面例子代码演示了如何在WebCollector中将部分页面的http请求方式改为原创 2016-02-16 12:51:10 · 5367 阅读 · 0 评论 -
网页抽取技术和算法
网页抽取技术和算法,持续更新。本文由WebCollector提供,转载请标明出处。目录:网页抽取简介基于正则表达式的网页抽取基于CSS选择器的网页抽取基于机器学习的网页抽取一. 网页抽取简介网页抽取在大多数情况下,指提取网页中的结构化数据。网页抽取技术近十几年方法和工具变化都较快。常见的网页抽取方法有 :基于正则表达式的网页抽取基于CSS选择器的网页抽取基于XPATH的网页抽取基于原创 2015-09-12 11:23:53 · 13204 阅读 · 4 评论 -
WebCollector下载整站页面(JAVA网络爬虫)
很多业务需要下载整站页面(有时为多个站点),将页面按照网站拓扑结构存放。下面给出用JAVA爬虫WebCollector(2.09版本以上)爬取整站网页并按照网页拓扑结构存储到本地的代码。代码中的抽取器可以作为一个插件复用。WebCollector的jar包可到官网下载:WebCollector官网。进入官网后下载webcollector-版本号-bin.zip,解压得到所需jar包。原创 2015-06-25 09:45:05 · 5229 阅读 · 2 评论 -
WebCollector 2.09 发布
WebCollector 2.09 发布,更新详情:http://nutcher.org/topics/63原创 2015-06-24 13:44:40 · 1234 阅读 · 0 评论 -
将WebCollector导入MAVEN项目
WebCollector可通过MAVEN直接导入项目,在pom.原创 2014-10-03 21:21:08 · 3121 阅读 · 0 评论 -
WebCollector内核解析—如何设计一个爬虫
本文利用WebCollector内核的解析,来描述如何设计一个网络爬虫。WebCollector使用了Nutch的爬取逻辑(分层广度遍历),Crawler4j的的用户接口(覆盖visit方法,定义用户操作),以及一套自己的插件机制,设计了一套爬虫内核。原创 2014-09-27 13:03:24 · 6948 阅读 · 3 评论 -
图片
用WebCollector为ruby-china做了一个站内搜索,地址:https://ruby-china.org/topics/21257原创 2014-08-27 19:25:24 · 1650 阅读 · 0 评论 -
用WebCollector制作的博客推送网站
发现ruby-china中很多在github.io上的个人博客文章质量还是不错的.但是很少文章被转载和收录.所以我对ruby-china中很多用户个人博客做了个推送网站,希望这些优秀博客可以被看到.http://www.brieftools.info/blogger/如果有博主希望被收录,回复网址即可.注意:网页每半分钟变动一次.原创 2014-09-01 01:32:27 · 1827 阅读 · 0 评论 -
JAVA爬虫Nutch、WebCollector的正则约束
每种爬虫的正则约束系统都有一些区别,这里拿Nutch、WebCollector两家爬虫的正则系统做对比。爬虫爬取时,需要约束爬取的范围。基本所有的爬虫都是通过正则表达式来完成这个约束.............原创 2014-08-28 13:08:55 · 5050 阅读 · 2 评论 -
用WebCollector做Web挖掘(实例1)
用WebCollector对RUBY-CHINA社区进行了一次外链统计(见统计图):原创 2014-08-18 19:09:28 · 4968 阅读 · 1 评论 -
WebCollector爬虫的种子
网络爬虫之所以能够不断找到新的网页,是因为它能够从已经爬取的页面中,提取出原创 2014-10-03 21:29:22 · 2510 阅读 · 0 评论 -
WebCollector爬虫爬取一个或多个网站
定义一个MyCrawler类,继承BreadthCrawler,来完成一个爬虫,对合肥import cn.edu.hfut.dmic.webcollector.crawler.BreadthCrawler;import cn.edu.hfut.dmic.webcollector.model.Page;public class MyCrawler extends Breadt原创 2014-10-03 22:22:46 · 5351 阅读 · 0 评论 -
WebCollector爬虫的数据持久化
WebCollector爬虫并不像scrapy那样,提供哦原创 2014-10-03 23:13:50 · 3143 阅读 · 0 评论 -
WebCollector多代理切换机制
使用同一IP长期爬取网站容易被网站的反爬虫机制封杀IP。爬虫往往使用多代理的方法来应对反爬虫机制。本教程利用WebCollector爬取大众点评,展示WebCollector的多代理切换机制,相关内容都在代码注释中。教程中仅仅将网页保存在download文件夹中,如果需要抽取,请参考WebCollector其他教程。原创 2015-04-26 20:58:28 · 6472 阅读 · 3 评论 -
Nutch2.3系列教程——Nutch2.3编译
Nutch2的稳定版,Nutch2.3终于在2015年1月22日发布,官方所谓的Nutch2.x终于可以编译成功了。下载地址:http://nutch.apache.org/downloads.html编译过程:1.找一台Linux机器,或者Linux虚拟机2.安装JDK3.安装ANT4.编译注意,由于国内用ant速度回很慢,所以需要将Nutch源码中的ivy/ivys原创 2015-01-31 13:42:48 · 3934 阅读 · 0 评论 -
用WebCollector爬取网站的图片
用WebCollector爬取网站的图片。我们爬取一个美食网站,获取里面所有的图片。原创 2014-11-06 00:24:07 · 6941 阅读 · 2 评论 -
WebCollector Cookbook (WebCollector中文文档)
WebCollector Cookbook (WebCollector中文文档):WebCollector Cookbook (WebCollector中文文档)原创 2014-10-04 21:52:51 · 3773 阅读 · 0 评论 -
在WebCollector爬虫中,自定义http请求
对一些访问受限的网站进行爬取(例如需要登录、切换代理等原创 2014-10-03 23:25:12 · 5465 阅读 · 0 评论