fei07-CSDN博客

原创 htmlParser初步研究

转自http://www.blogjava.net/lostfire/archive/2006/07/02/56212.html，作者：lostfire一，数据组织分析：HtmlParser主要靠Node、AbstractNode和Tag来表达Html，因为Remark和Text相对简单，此处就将其忽略了。 Node是形成树结构表示HTML的基础，所有的数据表示都是接口

2011-04-06 20:09:00 355

原创使用自己的PostProcesser筛选URL

heritrix如果不对链接做筛选的话后期工作是无法进行的。 heritrix有多个扩展点，这里我扩展FrontierSchedule,它是一个PostProcessor，它的作用是在Extractor 中所分析的链接加到Frontier中。我写了CarFrontirer这个继承了FrontierSchedule的类对本项目的链接进行扩展：Code:

2011-04-06 14:21:00 725 1

原创 Eclipse下配置heritrix

本文由浅入深，详细介绍了 Heritrix 在 Eclipse 中的配置、运行。最后对其进行扩展，介绍如何实现只抓取特定网站的页面。通过本文，读者可以了解 Heritrix 的相关特点以及在 Eclipse 中的配置运行，能够从零开始构建特定站点的专有爬虫，从而为网站增加全文检索服务。背景随着网站内容的增加，为其添加搜索功能是一个常见的需求，搜索引擎也已成为互联网最重要的应用之一。你

2011-04-06 14:13:00 675

原创多线程抓取

由于下载速度太慢，打算重载QueueAssignmentPolicy这个类，并重写它的getClassKey（）这个方法，网上的代码有：Code: public String getClassKey(CrawlController controller, CandidateURI cauri) { String uri = cauri.g

2011-04-06 14:09:00 371

原创 jar打包方法

一：简单的打包：先将要打包的文件整理好，拷贝到一个目录中。然后打开命令行窗口，进入到这个目录下面，执行以下命令即可：jar cvf SanyDemo.war */.这里指定文件名为SanyDemo.war，“*/.”表示要打包的文件为当前目录下的所有文件。以下为Jar自带帮助信息：用法: jar {ctxui}[vfm0Me] [jar-file] [manifest-

2011-04-06 13:17:00 534

原创 heritrix的启动问题

password文件必须设置为只读，否则就会出现如下错误： F:/heritrix/bin>heritrix --admin=admin:adminWARNING: Its currently not possible to run Heritrix in background on Windows. It was just started minimized in

2011-04-06 13:11:00 777

原创 HtmlParser抽取页面文本内容的方法总结

Code: //方法test1应该说是最有效的，避免了出现很多空格。 package test; import java.io.BufferedReader; import java.io.File; import

2011-04-06 11:01:00 650

原创 heritrix1.14.4安装与配置

以1.12.1版本为例，后续版本类似：1.关于安装：目前的版本号为1.12.1，官网地址为 http://crawler.archive.org/。常规安装，即解压到相关目录，之后配置系统环境变量"HERITRIX_HOME"到该解压目录（Java环境已经配置好）。 2.安装的后续工作：将 %HERITRIX_HOME%/heri

2011-04-06 10:43:00 701

原创 heritrix3伪装成GOOGLE进行爬取

许多网站访问时需要注册，但用Google、Baidu等搜索引擎搜索时却可以搜索到全文。这是因为网站对访问者的 User Agent进行了判断，如果是bot，则允许其访问；如果是一般用户，则自动跳转到登陆页面。用User Agent Switcher就可以把自己伪装成Googlebot，进而不用注册也可以访问这些网站。那么我们也可以伪装成搜索引擎来进入这些页面。我们需要的是修改浏览器的Us

2011-04-06 10:21:00 945

原创 eclipse下运行heritrix1.14.4报错

运行heritrix1.14.4报错 thread-10 org.archive.util.ArchiveUtils.() TLD list unavailable最近需要用到heritrix做一个需求，下来研究了一下。根据网上的文章在eclipse中启动报了下面的错误10:02:59.968 EVENT Starting Jetty/4.2.2310:03:00.765 EV

2011-04-05 13:19:00 745

原创通过不遵守robot.txt来提高抓取效率

Robots.txt是一种专门用于搜索引擎网络爬虫的文件，当构造一个网站时，如果作者希望该网站的内容被搜索引擎收录，就可以在网站中创建一个纯文本文件robots.txt，在这个文件中，声明该网站不想被robot访问的部分。这样，该网站的部分或全部内容就可以不被搜索引擎收录了，或者指定搜索引擎只收录指定的内容。 Heritrix在其说明文档中，表明它是一个完全遵守robots.txt协议的网络爬虫

2011-04-05 11:10:00 2170

fei07的专栏