lucene
文章平均质量分 62
m2004hsf
这个作者很懒,什么都没留下…
展开
-
cannot make any changes to the index (it was opened with readOnly = true)
在调用IndexReader.open(final Directory directory)时候,在lucene3.0以上的版本中新增加属性中的readOnly默认为true(readOnly true if no changes (deletions, norms) will be made with this IndexReader),导致在删除索引的时候抛出UnsupportedOpe...2011-09-10 13:13:57 · 136 阅读 · 0 评论 -
大并发搜索下关键词前缀匹配值得考虑的一种数据结构---Trie
如果要实现一个能支撑大数据量并发搜索的引擎的关键词匹配,而是需要选择用一种紧凑高效的数据结构来实现,譬如说Trie。下面介绍一下Trie..Trie,又称单词查找树或键树,是一种树形结构,是一种哈希树的变种。典型应用是用于统计和排序大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计。它的优点是:最大限度地减少无谓的字符串比较,查询效率比哈希表高。散列是一种常见的高...2011-09-12 23:43:30 · 469 阅读 · 0 评论 -
Lucene 分词解读(一)
Lucene中的中文分词Lucene中处理中文的常用方法有三种。以"咬死猎人的狗"这句话的输出结果为例:单字方式:[咬] [死] [猎] [人] [的] [狗];二元覆盖的方式:[咬死] [死猎] [猎人] [人的] [的狗];分词的方式:[咬] [死] [猎人] [的] [狗]。Lucene中负责语言处理的部分在org.apache.lu...原创 2011-09-13 15:46:46 · 112 阅读 · 0 评论 -
Lucene 分词解读(一)
Lucene中的中文分词Lucene中处理中文的常用方法有三种。以"咬死猎人的狗"这句话的输出结果为例:单字方式:[咬] [死] [猎] [人] [的] [狗];二元覆盖的方式:[咬死] [死猎] [猎人] [人的] [的狗];分词的方式:[咬] [死] [猎人] [的] [狗]。Lucene中负责语言处理的部分在org.apache.lu...2011-09-19 17:31:16 · 104 阅读 · 0 评论 -
Lucene写自己的Analyzer
实现一个简单的分析器(Analyzer)的例子如下所示:] [code="java"]public class MyAnalyzer extends Analyzer { public TokenStream tokenStream(String fieldName, Reader reader) { //以空格方式切分Token ...2011-09-19 17:32:23 · 227 阅读 · 0 评论 -
Lucene 分词解读(二)--Analyzer
Lucene中的Analyzer为了更好地搜索中文,在Lucene中通过WhitespaceTokenizer、WordDelimiter Filter、LowercaseFilter处理英文字符串。Lucene中的StandardAnalyzer对于中文采用了单字切分的方式,这样的结果是单字匹配,如搜索"上海",可能会返回和"海上"有关的结果。CJKAnalyzer采用了...2011-09-19 17:33:12 · 120 阅读 · 0 评论 -
java.lang.OutOfMemoryError: unable to create new native thread
今天系统突然收到错误日志:[code="java"]Feb 12, 2012 1:28:40 AM org.apache.tomcat.util.net.JIoEndpoint processSocketSEVERE: Error allocating socket processorjava.lang.OutOfMemoryError: unable to create new na...2012-02-12 16:09:39 · 226 阅读 · 0 评论