Nutch
laigood
自学能力强
展开
-
Nutch1.2增加插件例子
今尝试下给nutch1.2增加一个插件,于是到官网找了个例子,链接如下:http://wiki.apache.org/nutch/WritingPluginExample-0.9这个例子实现的的是推荐网站,就是写关键字在content里,当别人搜索这个关键字时,你推荐的网站在搜索结果中排前,要实现推荐必须在你的网页上加上 这条属性才能被插件识别。由于它这个例子是用nutch0.原创 2010-10-09 13:24:00 · 3419 阅读 · 7 评论 -
eclipse中调试nutch2.0+cassandra
很早官方就开始了nutch2.0的研发,而一直都是两线同时研发的,一个是普通版,一个是gora版本,也就是nutch2.0。下面介绍下怎样把项目导进eclipse中,这里我们的存储层使用nosql cassandra,本来想先使用mysql试试,发现启动不了爬虫,调试下发现原来还没有完全实现gora的sql数据库的存储功能,所以选择易用的cassandra作为测试。需要知识:nutch基本知识原创 2012-06-03 08:36:12 · 6609 阅读 · 31 评论 -
nutch2.0+cassandra中文网页乱码问题
用nutch2.0+cassandra1.0爬取和存储网页时发现gbk编码的网页解析提取文本时中文全都变成乱码,非常奇怪,之前nutch1.x从来就不会出现中文乱码的问题的,因为nutch1.x和nutch2.x用的爬虫代码差不多是一样的,所以我猜可能是保存到cassandra时有问题。看了下它保存网页到cassandra的源码,所有需要保存的值它都转换成二进制封装成ByteBuffer对象传到g原创 2012-07-24 21:19:10 · 4018 阅读 · 6 评论 -
Nutch1.2插件实现or查询
Nutch的搜索前台的默认搜索方式是and,也就是所有关键词都必须出现。现在想实现or查询发现nutch本身并不支持,在去官方论坛搜索无果,改源代码无果的情况下想到用插件实现or查询,于是参照query-base插件改写了个query-or插件,源码如下:public class OrQueryFilter implements QueryFilter { private Configur原创 2011-01-23 00:44:00 · 2025 阅读 · 8 评论 -
提高nutch爬取效率
Here are the things that could potentially slow down fetching下面这些是潜在的影响爬取效率的内容: 1) DNS setup 2) The number of crawlers you have, too many, too few. 3) Bandwidth limitations 4) Number of翻译 2011-03-09 11:08:00 · 4675 阅读 · 3 评论 -
nutch集成中文分词搜索时出现空白页解决方法
最近在研究nutch,我根据网上教程用插件方法把中文分词集成到nutch1.2中,运行爬虫可以,但把项目ant成war后,在网页中搜索索引里没有的词时能显示页面,但如果搜索索引里有的词语就会出现一个空白页,什么也没有,tomcat的控制台能显示出搜索结果,也没报错。于是我就一点一点地把新增代码移除,结果发现是替换了nutch原本分词的问题。网上的有些教程说要修改NutchDocumentAnaly原创 2010-10-04 12:33:00 · 2538 阅读 · 11 评论 -
nutch1.2标题关键词高亮方法
根据下面这个链接教程编码后试验发现标题只是加上了标签,并没有实现标签的效果。不知道作者用的是那个版本的nutch,我用1.2版没效果。http://hi.baidu.com/conquer84/blog/item/50bc43eea1a147fdb2fb959a.html 链接的教程: 在org.apache.nutch.searcher.HitDetails这个类中原创 2010-10-04 12:09:00 · 2414 阅读 · 7 评论 -
Nutch1.2增加IKAnalyzer中文分词
原版nutch中对中文的处理是按字划分,而不是按词划分。为适应我们的使用习惯必须加上中文分词,我加的是 IKAnalyzer。下面是我的方法,我把前台和后台爬虫用两种方法实现中文分词,后台直接替换nutch的analyzer,前台则修改NutchAnalysis.jj(注:我的前台和后台是两个项目)。前台修改:在src/java/org/apache/nutch/analysis包下找到N原创 2010-12-12 16:49:00 · 4054 阅读 · 10 评论 -
nutch1.3和solr3.x集成时出现Invalid UTF-8 character问题
今天更新了下nutch,发现已经出了1.3版,下载时就发现只有70多M,之前的可是100多M的,肯定是什么东西删了,下载完后发现原来nutch自带的搜索功能都被删了,现在只能用solr作为索引和搜索来使用。于是就配了个solr3.2,运行一下试试,结果到建立索引时出现了[was class java.io.CharConversionException] Invalid UTF-8 charact原创 2011-08-15 20:40:27 · 3482 阅读 · 0 评论 -
nutch1.2运行时可能发生的错误以及解决办法
错误1.由linux下允许打开的最大文件数量引起错误消息:java.io.IOException: background merge hit exception: _0:C500->_0 _1:C500->_0 _2:C500->_..... [optimize] at org.apache.lucene.index.IndexWriter.optimize(IndexWriter.j原创 2011-06-18 20:31:00 · 2648 阅读 · 5 评论 -
Solr1.4+Nutch1.2构建分布式搜索服务
网上有很多文章介绍配置solr+nutch,但感觉没多少是完整的,有些只是配置出用solr建立nutch索引并能用solradmin查找到数据就完事,我这篇文章主要介绍怎样把solr集成到nutch的搜索前台,让nutch能用到solr的索引服务从而构建出分布式搜索服务。由于本文主要介绍solr和nutch的集成,nutch的配置和爬取不在本文的讨论范围,需要的可以网上搜集相关资料,还有本文所说的原创 2010-12-22 15:03:00 · 6131 阅读 · 5 评论 -
分布式爬虫nutch2.0初体验------三大亮点
实在是等不及了,下了开发版的nutch2.0来玩玩,nutch2.0有什么不同呢?从官网wiki(见参考资料)可看到,主要是以下几个方面:1.抽象存储层 把存储层抽象出来,不仅像之前那样可以存放在hdfs上,也可以存在其它nosql中,如:hbase,cassandra,或关系数据库。2.精简插件 之前是差不多是一种文件使用一个插件来进行解析,现在主要是使用原创 2012-06-02 19:10:22 · 7789 阅读 · 4 评论