- 博客(15)
- 资源 (36)
- 收藏
- 关注
原创 WebCollector内核开发——定制Http请求
本教程适用于WebCollector 2.27版本或更高。在WebCollector中,使用最多的爬取器应该是BreadthCrawler,BreadthCrawler是用WebCollector的内核开发的一个插件,并不属于内核。如果只是简单定制Http请求,例如加入Cookie、UserAgent等Http头,使用POST操作等,使用BreadthCrawler插件即可完成,可以参考教程WebC
2016-02-19 17:33:13 3625
原创 WebCollector教程——在Eclipse项目中配置使用WebCollector爬虫
WebCollector教程——在Eclipse项目中配置使用WebCollector爬虫
2016-02-16 13:00:04 7330 1
原创 WebCollector网页正文提取
网页正文提取项目ContentExtractor已并入WebCollector维护。 WebCollector的正文抽取API都被封装为ContentExtractor类的静态方法。 可以抽取结构化新闻,也可以只抽取网页的正文(或正文所在Element)。 正文抽取效果指标 :比赛数据集CleanEval P=93.79% R=86.02% F=86.72%常见新闻网站数据集 P=97.87%
2016-02-16 12:59:10 5003 1
原创 WebCollector设置代理
WebCollector自带一个Proxys类,通过Proxys.nextRandom()方法可以随机获取加入的代理。 通过Proxys.add(“ip”,”端口号”);添加代理。 如果本机也参与http请求,可用Proxys.addEmpty()方法将本机加入。 覆盖Crawler的getResponse()方法,即可自定义使用随机代理的http请求: @Overridepublic H
2016-02-16 12:58:27 4627
原创 JAVA爬虫WebCollector 2.x入门教程——基本概念
WebCollector是一个无须配置、便于二次开发的JAVA爬虫框架(内核),它提供精简的的API,只需少量代码即可实现一个功能强大的爬虫。WebCollector-Hadoop是WebCollector的Hadoop版本,支持分布式爬取。目前WebCollector在Github上维护:https://github.com/CrawlScript/WebCollector1.WebCollect
2016-02-16 12:58:00 5777
原创 WebCollector教程——获取当前深度
本教程演示了WebCollector 2.20的新特性。下载WebCollector最新jar包可在WebCollector github主页下载。内容:本教程和深度遍历没有任何关系,只是讲解如何获取当前网页在遍历树中的深度。 利用2.20版本中的新特性MetaData可以轻松实现这个功能。import cn.edu.hfut.dmic.webcollector.model.CrawlDatum;
2016-02-16 12:57:25 4030
原创 WebCollector教程——爬取搜索引擎
本教程演示了WebCollector 2.20的新特性。下载WebCollector最新jar包可在WebCollector github主页下载。MetaData:MetaData是每个爬取任务的附加信息,灵活应用MetaData可以大大简化爬虫的设计。 例如Post请求往往需要包含参数,而传统爬虫单纯使用URL来保存参数的方法不适合复杂的POST请求。一些爬取任务希望获取遍历树的深度信息,这也
2016-02-16 12:56:57 4161
原创 WebCollector教程——爬取新浪微博
下载本教程需要两套jar包,WebCollector核心jar包和selenium的jar包。WebCollector最新jar包可在WebCollector github主页下载。selenium的jar包点击进入下载页面。内容:利用Selenium获取登陆新浪微博weibo.cn的cookie(WeiboCN.java)利用WebCollector和获取的cookie爬取新浪微博并抽取数据(
2016-02-16 12:56:14 6915
原创 WebCollector爬取JS加载的数据
WebCollector爬取JS加载的数据只需要自定义一个Requester即可,下面这个例子可以获取加载完成后的页面(但对于一边滚动一边加载数据的网页,需要修改代码)代码需要依赖WebCollector内核和selenium相关jar包:selenium及相关jar包下载import cn.edu.hfut.dmic.webcollector.net.HttpResponse;import cn
2016-02-16 12:55:36 7316 2
原创 网页存储解决方案
很多数据采集任务并不复杂,例如门户网站新闻采集,代码可以在10分钟内编写,但采集到的网页如何存储缺成为一个大问题。下面先给出一些常见的,但本人认为是错误的方法:1.将网页按照网站目录结构存储先不考虑小文件存储的问题,网站结构和文件目录并不能做到一一对应,例如一个网站同时包含下面两个URL,两个URL并不指向同一页面:http://www.abc.com/test/ahttp://www.abc.c
2016-02-16 12:55:01 1616
原创 Lazy爬虫配置教程
LAZY是基于WebCollector的一个简易爬虫,可以通过配置采集网页持久化到mongodb中。使用方法进入LAZY主页,下载Lazy-version-bin.zip,解压下载mongodb,由于国内下载mongodb较慢,提供两个百度网盘下载地址:Linux 64 Win 64配置并启动mongodb(按照一般流程即可)进入Lazy-version-bin.zip解压后的文件夹,用命令
2016-02-16 12:54:28 2718
原创 WebCollector分布式爬取
WebCollector-Hadoop是WebCollector的分布式版本,目前为beta版本项目地址:WebCollector-HadoopWebCollector-Hadoop需要运行在Hadoop上,因此最好在Linux中运行。用本地模式运行WebCollector-Hadoop并不需要配置hadoop环境,WebCollector-Hadoop项目是一个maven项目,本身包含了hadoo
2016-02-16 12:53:50 4021 1
原创 使用Spring JDBC持久化WebCollector爬取的数据
1.导入Spring JDBC的依赖<dependency> <groupId>mysql</groupId> <artifactId>mysql-connector-java</artifactId> <version>5.1.31</version></dependency><dependency> <groupId>org.springframework</
2016-02-16 12:53:04 5315
原创 WebCollector爬取CSDN博客
新闻、博客爬取是数据采集中常见的需求,也是最容易实现的需求。一些开发者利用HttpClient和Jsoup等工具也可以实现这个需求,但大多数实现的是一个单线程爬虫,并且在URL去重和断点爬取这些功能上控制地不好,爬虫框架可以很好地解决这些问题,开源爬虫框架往往都自带稳定的线程池、URL去重机制和断点续爬功能。爬虫框架往往也会自带网页解析功能,支持xpath或css选择器(底层多用Jsoup实现)。使
2016-02-16 12:52:20 3717 1
原创 WebCollector自定义http请求
WebCollector可以自定义http请求,WebCollector的http请求由Requester完成,BreadthCrawler和RamCrawler本身就实现了Requester接口,默认情况下它们使用自身作为Requester。自定义http请求只要override它们的getResponse方法即可。下面例子代码演示了如何在WebCollector中将部分页面的http请求方式改为
2016-02-16 12:51:10 5350
MozillaInterfaces.jar(火狐内核相关jar包)
2013-10-13
企业应用架构模式中文版 PDF.pdf.zip
2015-02-23
Linux 下用 C 语言进行数字图像处理.pdf
2014-05-16
WCF+Silverlight+EntityFramework+Sqlite所做的学生信息管理系统
2014-05-12
反编译工具 C# VB DELPHI C++ C zip
2014-05-11
pso工具箱 matlab
2014-05-10
CrawlScript-bin-beta0.3 JAVA的爬虫脚本语言
2014-01-20
CrawlScript-bin-beta0.1 JAVA的爬虫脚本语言
2014-01-15
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人