Nutch相关
文章平均质量分 74
酷豆
热情,开朗,正努力提高自己专业领域的能力!
展开
-
Nutch中问支持bug修复
由于Nutch不是原生支持中文的,开发者没有考虑到中文的分词会存在token的交叉重叠的情况,导致在根据用户输入查询串的token获取页面summary时出现:StringIndexOutOfBoundsException的异常。比如:“教育方针”可能出现这样的分词“教育方针”、“教育”、“方针”,这几个token就交叉重叠了。原创 2011-01-18 12:47:00 · 1350 阅读 · 2 评论 -
Nutch插件开发
<br /> <br />首先说明的是这个文章只是我实现一个Nutch插件的过程,至于Nutch插件机制的介绍就不在此说明,网上有很多关于Nutch插件机制的文章,可以自己查找。<br />实现Nutch插件,可以参考Nutch中自带的插件的配置方法,我这里实现的插件是index-field,是主要功能是在索引中加入几个字段,以满足我们业务的需求。下面介绍实现过程:<br />1. 插件src的目录结构<br />插件的源码文件一般放在src/plugin下,目录名通常与插件的id同名,以避免在增加插件时搞原创 2011-04-07 20:03:00 · 2324 阅读 · 0 评论 -
对HDFS文件系统文件的读、写、删操作
<br /><br />HDFS文件系统是Hadoop的分布式文件系统,Hadoop的API中提供了一些方法,以便在编程的时候向HDFS中写入和读出文件。<br />下面通过一个例子来说明:<br /> publicstaticvoid readAndWrite(){<br /> Configuration conf = newConfiguration();//获得conf对象,以便能够获得配置文件的信息<br /> FileSystem fs;<br />原创 2011-04-20 16:33:00 · 2009 阅读 · 0 评论 -
Nutch中搜索时把自定义的字段(filed)加入检索条件
<br /><br />1、问题原因分析<br />错误org.apache.nutch.searcher.QueryException: Not a known fieldname:publishUrl原因<br />原因分析:<br />在NutchBean的main()方法中<br />final NutchBean bean = new NutchBean(conf);<br />声明NutchBean 得到一个bean,在他的构造函数中使用LuceneSearchBean()来实现sea原创 2011-04-20 15:28:00 · 1551 阅读 · 0 评论 -
Nutch多格式支持技术方案
<br /><br />Nutch可以对多种格式的资源实现抓取,只需要做一些配置上的修改即可,下面就是一些配制方法<br />1、抓取 pdf|doc|xls|ppt|txt<br />默认情况下可以搜索txt内容,pdf|doc|xls|ppt 需要配置如下文件:<br />1. parse-plugins.xml: 指定文件使用的parser,默认nutch使用了第三方的tika作为parser<br /> <br />2. nutch-default.xml:<br /><name>plugin.in原创 2011-04-20 15:08:00 · 3276 阅读 · 1 评论