自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 htmlParser初步研究

 转自http://www.blogjava.net/lostfire/archive/2006/07/02/56212.html,作者:lostfire一,数据组织分析:HtmlParser主要靠Node、AbstractNode和Tag来表达Html,因为Remark和Text相对简单,此处就将其忽略了。 Node是形成树结构表示HTML的基础,所有的数据表示都是接口

2011-04-06 20:09:00 311

原创 使用自己的PostProcesser筛选URL

 heritrix如果不对链接做筛选的话后期工作是无法进行的。    heritrix有多个扩展点,这里我扩展FrontierSchedule,它是一个PostProcessor,它的作用是在Extractor 中所分析的链接加到Frontier中。我写了CarFrontirer这个继承了FrontierSchedule的类对本项目的链接进行扩展:Code:

2011-04-06 14:21:00 661 1

原创 Eclipse下配置heritrix

 本文由浅入深,详细介绍了 Heritrix 在 Eclipse 中的配置、运行。最后对其进行扩展,介绍如何实现只抓取特定网站的页面。通过本文,读者可以了解 Heritrix 的相关特点以及在 Eclipse 中的配置运行,能够从零开始构建特定站点的专有爬虫,从而为网站增加全文检索服务。背景随着网站内容的增加,为其添加搜索功能是一个常见的需求,搜索引擎也已成为互联网最重要的应用之一。你

2011-04-06 14:13:00 603

原创 多线程抓取

 由于下载速度太慢,打算重载QueueAssignmentPolicy这个类,并重写它的getClassKey()这个方法,网上的代码有:Code: public String getClassKey(CrawlController controller, CandidateURI cauri) {          String uri = cauri.g

2011-04-06 14:09:00 323

原创 jar打包方法

 一:简单的打包: 先将要打包的文件整理好,拷贝到一个目录中。然后打开命令行窗口,进入到这个目录下面,执行以下命令即可:jar cvf SanyDemo.war */.这里指定文件名为SanyDemo.war,“*/.”表示要打包的文件为当前目录下的所有文件。以下为Jar自带帮助信息:用法: jar {ctxui}[vfm0Me] [jar-file] [manifest-

2011-04-06 13:17:00 476

原创 heritrix的启动问题

password文件必须设置为只读,否则就会出现如下错误: F:/heritrix/bin>heritrix --admin=admin:adminWARNING: Its currently not possible to run Heritrix in background         on Windows. It was just started minimized in

2011-04-06 13:11:00 712

原创 HtmlParser抽取页面文本内容的方法总结

 Code: //方法test1应该说是最有效的,避免了出现很多空格。    package   test;                      import   java.io.BufferedReader;        import   java.io.File;        import   

2011-04-06 11:01:00 591

原创 heritrix1.14.4安装与配置

 以1.12.1版本为例,后续版本类似:1.关于安装:       目前的版本号为1.12.1,官网地址为 http://crawler.archive.org/。常规安装,即解压到相关目录,之后配置系统环境变量"HERITRIX_HOME"到该解压目录(Java环境已经配置好)。  2.安装的后续工作:       将 %HERITRIX_HOME%/heri

2011-04-06 10:43:00 658

原创 heritrix3伪装成GOOGLE进行爬取

 许多网站访问时需要注册,但用Google、Baidu等搜索引擎搜索时却可以搜索到全文。这是因为网站对访问者的 User Agent进行了判断,如果是bot,则允许其访问;如果是一般用户,则自动跳转到登陆页面。用User Agent Switcher就可以把自己伪装成Googlebot,进而不用注册也可以访问这些网站。那么我们也可以伪装成搜索引擎来进入这些页面。我们需要的是修改浏览器的Us

2011-04-06 10:21:00 837

原创 eclipse下运行heritrix1.14.4报错

 运行heritrix1.14.4报错 thread-10 org.archive.util.ArchiveUtils.() TLD list unavailable最近需要用到heritrix做一个需求,下来研究了一下。根据网上的文章在eclipse中启动报了下面的错误10:02:59.968 EVENT  Starting Jetty/4.2.2310:03:00.765 EV

2011-04-05 13:19:00 676

原创 通过不遵守robot.txt来提高抓取效率

 Robots.txt是一种专门用于搜索引擎网络爬虫的文件,当构造一个网站时,如果作者希望该网站的内容被搜索引擎收录,就可以在网站中创建一个纯文本文件robots.txt,在这个文件中,声明该网站不想被robot访问的部分。这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜索引擎只收录指定的内容。 Heritrix在其说明文档中,表明它是一个完全遵守robots.txt协议的网络爬虫

2011-04-05 11:10:00 2064

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除