nutch+lucene
文章平均质量分 60
堕落天使一零
这个作者很懒,什么都没留下…
展开
-
nutch1.1 插件开发例子(URLFilter接口实现)
1. 首先,在src/plugin文件夹里建一个目录,这个目录就等于一个插件,在这里我们命名为urlFilter。2. 建立两个文件加一个目录。Build.xml:ant编译的时候,要用的的文件。Plugin.xml:这个是用来注册这个插件。Nutch源程序内部会调用这个文件。每个插件都有这个文件。Src/java/*目录:*就是插件源程序的包目录。前面src/java一定要有。例如:你的源程序所在的包是com.plugin,那这个目录就是src/java/com/plugin。原创 2010-07-20 14:38:00 · 1955 阅读 · 0 评论 -
nutch爬虫 解析后获得的url数量有限制
Nutch爬虫将网页爬下来后,分析url的时候确实是会把所有的url给解析出来。但是,如果仔细观察的话,nutch爬虫并不会把所有的解析出来的url传到过滤器里。 查看源码以后发现,nutch爬虫有一个环节里会把很多url给忽略掉。Org.apache.nutch.parse包里的ParseOutputFormat这个类里的getRecordWriter方法里有一个变量叫maxOutlinksPerPage,这个变量就是这一现象的罪魁祸首。原来,nutch爬虫用这个变量规定,解析出来的url原创 2010-08-04 09:55:00 · 2218 阅读 · 0 评论 -
Lucene API基本用法
<br />检索:<br /> <br />public static void query(String queryString){<br /> try {<br /> List<String> list = new ArrayList<String>();<br /> Query query = IKQueryParser.parse("name",queryString); <br /> System.out.println(query.toString());<br /> <br />原创 2010-10-09 18:21:00 · 761 阅读 · 0 评论 -
Lucene2.9以上版本技术
<br />转帖 : http://lc0451.javaeye.com/blog/616176<br /> <br />一、 Lucene索引创建和优化 [版本2.9.0以上] <br /><br />Lucene索引的创建首先需要取得几个必须的对象: <br /><br />1、分词器//可以采用其他的中文分词器 <br />StandardAnalyzer analyzer = new StandardAnalyzer(Version.LUCENE_CURRENT);//分词器 <br /><br /转载 2010-11-11 15:44:00 · 634 阅读 · 0 评论 -
添加时间范围查询query以后,highLight报错问题
以前用lucene的高亮显示都没有问题,在修改代码进行时间范围内关键字查询的时候突然报错 java.lang.NoClassDefFoundError: org/apache/lucene/index/memory/MemoryIndex 百度之后发现解决办法是 添加lucene-memory-3.0.2.jar这个包,特此记录。转载 2011-01-13 15:50:00 · 851 阅读 · 0 评论 -
lucene查询后关键字高亮显示
<br /><br />//query为查询条件组合<br />SimpleHTMLFormatter simpleHTMLFormatter = new SimpleHTMLFormatter("<span style=/"color:red;/">", "</span>"); <br />Highlighter highlighter = new Highlighter(simpleHTMLFormatter, new QueryScorer(query)); <br />highlighter.s原创 2011-01-13 15:57:00 · 1440 阅读 · 0 评论 -
nutch导入到Eclipse总结
安装PPT: http://download.csdn.net/detail/hero_quan/4673329 1. 首先,要下载Cygwin,下载地址:http://www.cygwin.com/setup.exe。安装完成后,一定要配置系统变量,如下所示: C:/cygwin/bin2.· File > New > Project >原创 2010-07-14 15:24:00 · 1524 阅读 · 0 评论