Lucene/Nutch
telnetor
非诚勿扰
展开
-
Nutch分布式检索配置
Nutch版本:0.7.2,也适用于1.01、 同样Nutch程序分发在N台服务器上2、 在一台服务器上部署tomcat,修改其中nutch-site.xml,将search.dir指向包含search-servers.txt的目录3、 search-servers.txt目录中存放运行nutch服务的服务器ip及其监听端口4、 启动各个nutch server。server [port] /pa原创 2009-12-09 18:11:00 · 768 阅读 · 4 评论 -
在线给solr增加core的方法
步骤:1、下载tomcat、solr、并解压它们2、将solr.war拷贝至tomcat/webapps下面3、将solr/example下面的multicore拷贝至tomcat下面,并改名为solr4将solr/solr.xml中的改为了5、cd tomc原创 2011-08-24 00:30:38 · 12870 阅读 · 0 评论 -
Lucene Collector使用例子
<br />Lucene的Collector是一项高级功能,涉及到搜索过程的详细步骤,通过定制Collector可以改变默认搜索,也可以在此阶段收集命中的文档的信息。<br /> <br />下面用一个例子演示如何自定义Collector以及如何在自定义的Collector中实现数据收集功能。<br /> <br />package test;import java.io.IOException;import java.util.Map;import java.util.Set;import原创 2011-04-28 01:19:00 · 6869 阅读 · 0 评论 -
Solr1.4如何不使用默认的复合文件结构(CompoundFile)
Solr1.4在建索引的时候默认使用复合文件格式,在索引较大时无疑会增加索引创建的时间以及系统的IO。对于没有使用master/slave架构的应用来说,这样做鸭梨很大。 本文将阐述如何改变这一默认策略。原创 2011-02-18 16:59:00 · 1108 阅读 · 0 评论 -
Lucene获取没有存储的排序字段的值
<br /> <br />Lucene索引时字段可以设置为存储(Store.YES)或者不存储(Store.NO)。一般情况下,搜索完成之后会得到一个TopDocs对象,用它去获取ScoreDoc之后取出Document。使用Document获取存储在索引中的值。但有些排序字段是不存储的,在构造Document时使用的下面的方式:<br />doc.add(new Field("time", "2001", Store.NO, Index.NOT_ANALYZED_NO_NORMS));<br />这样在获原创 2011-02-16 10:41:00 · 4067 阅读 · 0 评论 -
搜索速度问题:本地索引与hdfs平台索引,中文搜索与英文搜索速度不一致
<br />晚上在oschina上看见有人发帖,大概意思如下:<br /> <br />1.在Nutch+hdfs平台进行搜索,hdfs存放索引的时候搜索速度比索引存放在本地的时候慢。<br />2.中文搜索速度比英文搜索速度慢(或者搜英文比搜中文慢,作者没详细描述,但肯定是速度不一致,呵呵)<br /> <br />分析了一下,觉得<br /> <br /><br />大概两方面的问题:<br />1.搜索不提倡在hdfs上面进行。因为在hdfs上面的索引可能不在同一节点,搜索可能需要请求n个节点才能完成原创 2011-01-15 23:40:00 · 2370 阅读 · 0 评论 -
Lucene V3.0.2搜索例子
Lucene3.0开始已经完全抛弃了2.x使用的Hits类,转而使用TopDocs,TopFieldDocs。本例演示了如何使用这两个类进行搜索。原创 2010-12-13 17:11:00 · 3383 阅读 · 7 评论 -
Lucene V3.0.2分词、高亮
Lucene版本升级到3.0以后,原来的分词方式(token=tokenStream.next())的方式已经被抛弃,转而使用TermAttribute,本例使用SmartChineseAnalyzer演示如何分词,此外,本例还演示了如何对命中文档域进行高亮显示。原创 2010-12-13 17:24:00 · 3381 阅读 · 3 评论 -
Nutch分布式检索配置过程及端口启动顺序对搜索结果的影响分析
Nutch分布式检索配置过程及端口启动顺序对搜索结果的影响分析蒋明原(2010/1/25) Nutch分布式检索配置过程及端口启动顺序对搜索结果的影响分析实验条件:a),nutch-1.0从原始nutch-1.0.tar.gz中解压出之后没有经过任何改动b),tomcat中 nutch-1.0web工程拷贝nutch-1.0中的nutch-1.0.war到tomcat/webapps目录中原创 2010-01-26 00:50:00 · 905 阅读 · 0 评论 -
eclipse+tomcat+solr开发环境配置
由于最近电脑几乎革了windows的命,换成了Linux+虚拟机的配置,在Linux环境下只安装了Eclipse的JEE版本,没有安装MyEclipse。原来熟悉的环境没有了,只能一点一点摸索着配置solr与tomcat的接合。考虑到可能有许多兄弟与我一样习惯了使用MyEcl原创 2011-08-25 01:39:15 · 7527 阅读 · 1 评论