pwlazy的专栏

与时俱进,开拓创新

浅谈MMSEG分词算法

最近看了下MMSEG分词算法,觉得这个算法简单高效,而且还非常准确 作者声称这个规则达到了99.69%的准确率并且93.21%的歧义能被这个规则消除。 核心思想是抽取3个可能的词(存在多个组合),然后根据4个消歧义规则确定到底选择那个组合 1. 组合长度最大 2. 组合中平均词语长度最大 ...

2013-12-25 20:38:03

阅读数:12977

评论数:0

nutch recrawl中出现的问题及解决

 昨天在recrawl的时候经常出现错误1) java.lang.ArrayIndexOutOfBoundsException: -1        at org.apache.lucene.index.MultiReader.isDeleted(MultiReader.java:113)    ...

2009-06-29 23:33:00

阅读数:1605

评论数:1

solr的索引更新

 背景: solr作为搜索工具,索引采用传统的lucene构建,当更新索引文件的时候,搜索并不会出现更新 solr确实做了精细的缓存机制,缓存跟一个特定的searcher绑定,与普通的缓存相比,solr的缓存并不会在一段时间之后失效,除非searcher发生改变 当你将solr集成到你的应用,而非...

2008-04-22 18:29:00

阅读数:11039

评论数:1

solr facet是个好东东

 一直没有想到为什么要使用solr,虽然solr提供很多利器前段时间在考虑如果做搜索分组统计的一个个东东,想了很多方案,仍然感觉不好,直到我看到Apache Con 2007上的一篇文档Apache Solr Out Of The Box (OOTB),我觉得看到了希望里面提到的facet正是我想...

2008-04-22 18:27:00

阅读数:7961

评论数:9

Hadoop in aciton

背景:hadoop应该是一个mapreduce框架,它封装了程序分布的细节,使开发者只关注最重要的应用,即Map 和reduce.本文以单机为基础,略去了一些细节, 剖析了其主要流程。废话少说,开始实战: 首先写个测试类: public class WordCount ...{ public st...

2007-07-05 12:11:00

阅读数:4727

评论数:5

小议lucene搜索表达式中的AND和OR以及+和空格

在构造搜索表达式的时候你可以使用+(与AND相当,当不完全相同) 和空格(与OR相当),也可以使用AND和OR,当然也可以都混在一起,个人感觉最好不要构造复杂的表达式的时候千万要注意,特别是使用AND OR的时候,搜索引擎解析表达式的时候并非按照常规的先AND后OR比如tag:a AND  tag...

2007-03-15 14:25:00

阅读数:5750

评论数:0

lucene搜索关键字中的空格

在搜索中如果输入"a  b"进行搜索上是"或者"的关系: a OR b,但如果你是针对多个域进行搜索的话就会出现问题比如你的本意是或者tag:a或者tag:b 或者title:a或者title:b,搜索表达式为tag:a tag:b title:a titl...

2007-03-15 13:53:00

阅读数:3882

评论数:0

lucene并行建索引解决方案

 背景:单线程为30万条数据建索引花了10分钟,为了提高效率采用多线程  起初我采用多个线程共享一个indexwriter实例(也意味着往同一个目录写索引),这是 lucene in action 和lucene wiki的推荐做法,不知道到为什么总是报FileNotFoundException,...

2007-02-16 14:45:00

阅读数:10338

评论数:16

解决lucene范围搜索中的TooManyClauses exception

上周在使用范围搜索时又遇到问题 ,程序抛出TooManyClauses  exception。后来才发现lucene将范围搜索转化为精确匹配,每个匹配对应一个clause,所以如果你的范围如果包含超过1024个索引值,程序就会抛错由此想到3种方案1)既然lucene限制了clause的个数,那么可...

2006-12-07 16:40:00

阅读数:3899

评论数:0

Lucene中的范围搜索

前两天做有关lucene的范围搜索,觉得应该很简单,因为之前做过lucene的排序。但一做就发现不那么回事,做排序程序几乎不需要改动,但范围搜索完全不同。下面就3个方面(整数,浮点数,日期)来说前提:使用lucene1.9.1,将整数,浮点数和日期全部以如下方式建索引doc.add(new Fie...

2006-11-16 12:13:00

阅读数:3315

评论数:1

lucene中的删除索引

今天在测试lucene的删除索引中遇到一个问题测试代码如下:。。。。。。。protected void setUp() throws Exception ...{        super.setUp();        deleteIndexBuilder = (DeleteIndexBuild...

2006-10-17 17:30:00

阅读数:7084

评论数:4

使用lucene的多字段排序--回复网友BUFFON

网友BUFFON问了我一个问题 ,问题地址可以点此链接我们来看看这个问题 怎样实现在按一个或多个FEILD的匹配度排序的同时又按一个FIELD的顺序排序以及BUF...

2006-08-24 10:15:00

阅读数:3976

评论数:1

windows下nutch0.8初探

 前一段时间试了一下nutch0.8没成功,然后尝试nutch-0.7.x都很顺利搞定,起初以为0.8有问题,但后来一些网友告诉我0.8没问题,我重新再试,好了,我来说说其中要注意的问题,以免新手走弯路。我在windwos下开发,也懒得下载cygwin,把那个shell脚本改成了ant,点击ant...

2006-08-23 23:49:00

阅读数:5992

评论数:31

使用lucene对搜索结果排序

lucene默认根据匹配度对搜索结果降序排,如果对某个域进行排序? 通常分两步: step1)建索引时doc.add(new Field("audittime", row.get("audittime").toString(),               ...

2006-08-18 15:05:00

阅读数:9188

评论数:4

Dissecting The Nutch Crawler -Summary: Nutch crawler extension points

    英文原文出处:DissectingTheNutchCrawler  转载本文请注明出处:http://blog.csdn.net/pwlazySummary: Nutch crawler extension pointsThe main ways to configure the Nutc...

2006-08-08 22:45:00

阅读数:1768

评论数:0

Dissecting The Nutch Crawler -Factory classes: '''ParserFactory''', '''ProtocolFactory'''

    英文原文出处:DissectingTheNutchCrawler  转载本文请注明出处:http://blog.csdn.net/pwlazyFactory classes: ParserFactory, ProtocolFactory> Class net.nutch.pars...

2006-08-08 22:01:00

阅读数:2163

评论数:0

Dissecting The Nutch Crawler -Factory classes: '''URLFilterFactory'''

    英文原文出处:DissectingTheNutchCrawler  转载本文请注明出处:http://blog.csdn.net/pwlazyFactory classes: URLFilterFactory> Class net.nutch.net.URLFilterFacto...

2006-08-08 20:49:00

阅读数:1389

评论数:0

Dissecting The Nutch Crawler -Aside: net.nutch.util.NutchConfig

      英文原文出处:DissectingTheNutchCrawler  转载本文请注明出处:http://blog.csdn.net/pwlazyAside: net.nutch.util.NutchConfigIf you have been reading the code along...

2006-08-08 00:14:00

阅读数:1332

评论数:0

Dissecting The Nutch Crawler -Factory classes: Overview

       英文原文出处:DissectingTheNutchCrawler  转载本文请注明出处:http://blog.csdn.net/pwlazyFactory classes: Overview> Class net.nutch.parser.ParserFactory ...

2006-08-07 22:15:00

阅读数:1290

评论数:0

Dissecting The Nutch Crawler -Command "fetch": net.nutch.fetcher.Fetcher

      英文原文出处:DissectingTheNutchCrawler  转载本文请注明出处:http://blog.csdn.net/pwlazyCommand "fetch": net.nutch.fetcher.Fetcher> "fetch: ...

2006-08-07 12:47:00

阅读数:1660

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭