- 博客(11)
- 收藏
- 关注
原创 htmlParser初步研究
转自http://www.blogjava.net/lostfire/archive/2006/07/02/56212.html,作者:lostfire一,数据组织分析:HtmlParser主要靠Node、AbstractNode和Tag来表达Html,因为Remark和Text相对简单,此处就将其忽略了。 Node是形成树结构表示HTML的基础,所有的数据表示都是接口
2011-04-06 20:09:00 311
原创 使用自己的PostProcesser筛选URL
heritrix如果不对链接做筛选的话后期工作是无法进行的。 heritrix有多个扩展点,这里我扩展FrontierSchedule,它是一个PostProcessor,它的作用是在Extractor 中所分析的链接加到Frontier中。我写了CarFrontirer这个继承了FrontierSchedule的类对本项目的链接进行扩展:Code:
2011-04-06 14:21:00 661 1
原创 Eclipse下配置heritrix
本文由浅入深,详细介绍了 Heritrix 在 Eclipse 中的配置、运行。最后对其进行扩展,介绍如何实现只抓取特定网站的页面。通过本文,读者可以了解 Heritrix 的相关特点以及在 Eclipse 中的配置运行,能够从零开始构建特定站点的专有爬虫,从而为网站增加全文检索服务。背景随着网站内容的增加,为其添加搜索功能是一个常见的需求,搜索引擎也已成为互联网最重要的应用之一。你
2011-04-06 14:13:00 603
原创 多线程抓取
由于下载速度太慢,打算重载QueueAssignmentPolicy这个类,并重写它的getClassKey()这个方法,网上的代码有:Code: public String getClassKey(CrawlController controller, CandidateURI cauri) { String uri = cauri.g
2011-04-06 14:09:00 323
原创 jar打包方法
一:简单的打包: 先将要打包的文件整理好,拷贝到一个目录中。然后打开命令行窗口,进入到这个目录下面,执行以下命令即可:jar cvf SanyDemo.war */.这里指定文件名为SanyDemo.war,“*/.”表示要打包的文件为当前目录下的所有文件。以下为Jar自带帮助信息:用法: jar {ctxui}[vfm0Me] [jar-file] [manifest-
2011-04-06 13:17:00 476
原创 heritrix的启动问题
password文件必须设置为只读,否则就会出现如下错误: F:/heritrix/bin>heritrix --admin=admin:adminWARNING: Its currently not possible to run Heritrix in background on Windows. It was just started minimized in
2011-04-06 13:11:00 712
原创 HtmlParser抽取页面文本内容的方法总结
Code: //方法test1应该说是最有效的,避免了出现很多空格。 package test; import java.io.BufferedReader; import java.io.File; import
2011-04-06 11:01:00 591
原创 heritrix1.14.4安装与配置
以1.12.1版本为例,后续版本类似:1.关于安装: 目前的版本号为1.12.1,官网地址为 http://crawler.archive.org/。常规安装,即解压到相关目录,之后配置系统环境变量"HERITRIX_HOME"到该解压目录(Java环境已经配置好)。 2.安装的后续工作: 将 %HERITRIX_HOME%/heri
2011-04-06 10:43:00 658
原创 heritrix3伪装成GOOGLE进行爬取
许多网站访问时需要注册,但用Google、Baidu等搜索引擎搜索时却可以搜索到全文。这是因为网站对访问者的 User Agent进行了判断,如果是bot,则允许其访问;如果是一般用户,则自动跳转到登陆页面。用User Agent Switcher就可以把自己伪装成Googlebot,进而不用注册也可以访问这些网站。那么我们也可以伪装成搜索引擎来进入这些页面。我们需要的是修改浏览器的Us
2011-04-06 10:21:00 837
原创 eclipse下运行heritrix1.14.4报错
运行heritrix1.14.4报错 thread-10 org.archive.util.ArchiveUtils.() TLD list unavailable最近需要用到heritrix做一个需求,下来研究了一下。根据网上的文章在eclipse中启动报了下面的错误10:02:59.968 EVENT Starting Jetty/4.2.2310:03:00.765 EV
2011-04-05 13:19:00 676
原创 通过不遵守robot.txt来提高抓取效率
Robots.txt是一种专门用于搜索引擎网络爬虫的文件,当构造一个网站时,如果作者希望该网站的内容被搜索引擎收录,就可以在网站中创建一个纯文本文件robots.txt,在这个文件中,声明该网站不想被robot访问的部分。这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜索引擎只收录指定的内容。 Heritrix在其说明文档中,表明它是一个完全遵守robots.txt协议的网络爬虫
2011-04-05 11:10:00 2064
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人