- 博客(22)
- 资源 (36)
- 收藏
- 关注
原创 WebCollector Cookbook (WebCollector中文文档)
WebCollector Cookbook (WebCollector中文文档):WebCollector Cookbook (WebCollector中文文档)
2014-10-04 21:52:51 3756
WebCollector Cookbook (WebCollector中文文档)
WebCollector Cookbook (WebCollector中文文档):http://www.brieftools.info/document/webcollector/
2014-10-04 21:52:00 635
原创 WebCollector爬虫的redis插件
/** * RedisCrawler是WebCollector的一个插件,将WebCollector的任务管理交 * 给redis数据库,使WebCollector可以进行海量网页的爬取 */public class MyCrawler extends RedisCrawler{ public MyCrawler(String tableName,String ip,int p
2014-10-03 23:28:34 2384 1
WebCollector爬虫的redis插件
使用WebCollector的redis插件,进行爬取。(使用redis数据库进行任务管理)/** * RedisCrawler是WebCollector的一个插件,将WebCollector的任务管理交 * 给redis数据库,使WebCollector可以进行海量网页的爬取 */public class MyCrawler extends RedisCrawler{ ...
2014-10-03 23:28:00 218
在WebCollector爬虫中,自定义http请求
对一些访问受限的网站进行爬取(例如需要登录、切换代理),往往需要进行自定义http请求。BreadthCrawler默认使用JDK自带的HttpUrlConnection进行http请求,下面示例通过自定义http请求,使用httpclient 4.x进行http请求。(需要导入httpclient 4.x所需jar包,或添加httpclient 4.x的maven dependency)....
2014-10-03 23:25:00 606
WebCollector爬虫的数据持久化
WebCollector爬虫并不像scrapy那样,提供一个pipeline这样的数据持久化接口。用户通过自定义WebCollector中BreadthCrawler中的visit方法,来定义对每个页面的操作。同样,数据的持久化,也是在这里让用户自定义的。例如下面这个示例,展示如何将网页的源码,保存到数据库中:import cn.edu.hfut.dmic.webcollecto...
2014-10-03 23:13:00 426
原创 WebCollector爬虫使用内置的Jsoup进行网页抽取
WebCollector建议使用内置的Jsoup进行网页抽取。从网页抽取的稳定性角度来说,Jsoup使用的CSS SELE
2014-10-03 22:50:05 2833
WebCollector爬虫使用内置的Jsoup进行网页抽取
WebCollector建议使用内置的Jsoup进行网页抽取。从网页抽取的稳定性角度来说,Jsoup使用的CSS SELECTOR无疑是最稳定的抽取特征。传统的抽取方案大多数依赖正则或者xpath,但是正则和xpath这两个特征无论是从稳定性,还是从开发效率,都远远低于CSS SELECTOR。下面的示例,就是用WebCollector内置的Jsoup,对知乎的提问进行抽取:pu...
2014-10-03 22:50:00 256
原创 WebCollector爬虫的各种参数配置(代理、断点等)
WebCollector最常用的爬import cn.edu.hfut.dmic.webcollector.crawler.BreadthCrawler;import cn.edu.hfut.dmic.webcollector.model.Page;import java.net.InetSocketAddress;import java.net.Proxy;public cl
2014-10-03 22:37:37 6154 1
WebCollector爬虫的各种参数配置(代理、断点等)
BreadthCrawler是WebCollector最常用的爬取器之一,依赖文件系统进行爬取信息的存储。这里以BreadthCrawler为例,对WebCollector的爬取配置进行描述:import cn.edu.hfut.dmic.webcollector.crawler.BreadthCrawler;import cn.edu.hfut.dmic.webcollector.mod...
2014-10-03 22:37:00 685
原创 WebCollector爬虫爬取一个或多个网站
定义一个MyCrawler类,继承BreadthCrawler,来完成一个爬虫,对合肥import cn.edu.hfut.dmic.webcollector.crawler.BreadthCrawler;import cn.edu.hfut.dmic.webcollector.model.Page;public class MyCrawler extends Breadt
2014-10-03 22:22:46 5333
WebCollector爬虫爬取一个或多个网站
定义一个MyCrawler类,继承BreadthCrawler,来完成一个爬虫,对合肥工业大学官网和新华网进行爬取。对于一个最简单的爬虫,有2个东西是必备的:1)种子2)正则约束3)对每个页面的自定义操作(BreadthCrawler默认的visit方法是将网页保存到文件夹,建议覆盖,改成自己的自定义操作)import cn.edu.hfut.dmic.webcollect...
2014-10-03 22:22:00 702
WebCollector爬虫的种子
网络爬虫之所以能够不断找到新的网页,是因为它能够从已经爬取的页面中,提取出未爬取的超链接,但是当爬虫开启的时候,是没有已知网页的。所以我们需要告诉爬虫至少1个url,让爬虫通过爬取这个url对应的网页,来找到新的网页(通过超链接抽取)。对于广度遍历来说,种子就是树的树根(森林的树根集合)。例如下图,对http://www.apache.org/进行爬取,http://www.apache....
2014-10-03 21:29:00 410
将WebCollector导入MAVEN项目
WebCollector可通过MAVEN直接导入项目,在pom.xml中添加dependency:<dependency> <groupId>cn.edu.hfut.dmic.webcollector</groupId> <artifactId>WebCollector</artifactId> <v...
2014-10-03 21:21:00 307
将WebCollector导入普通项目
将WebCollector导入普通项目只需要两步:1.到WebCollector的github主页https://github.com/CrawlScript/WebCollector ,下载webcollector-版本号-bin.zip,解压。2.将解压后文件夹中所有的jar包,加入项目的build path,导入成功。...
2014-10-03 21:18:00 138
用WebCollector下载在线API文档
用WebCollector下载的在线API文档,发布在精简导航上:JAVA6的中文API:http://www.brieftools.info/document/JDK60/JSOUP中文教程:http://www.brieftools.info/document/jsoup/...
2014-10-03 17:44:00 308
MozillaInterfaces.jar(火狐内核相关jar包)
2013-10-13
企业应用架构模式中文版 PDF.pdf.zip
2015-02-23
Linux 下用 C 语言进行数字图像处理.pdf
2014-05-16
WCF+Silverlight+EntityFramework+Sqlite所做的学生信息管理系统
2014-05-12
反编译工具 C# VB DELPHI C++ C zip
2014-05-11
pso工具箱 matlab
2014-05-10
CrawlScript-bin-beta0.3 JAVA的爬虫脚本语言
2014-01-20
CrawlScript-bin-beta0.1 JAVA的爬虫脚本语言
2014-01-15
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人