排序:
默认
按更新时间
按访问量

lucene-2.9.0 索引过程(四) 合并过程

 lucene-2.9.0此版本使用的是对数合并策略此前颁布的lucene是通过ducument的数量来驱动索引的合并的使用策略为立即合并策略例如合并因为mergeFactor1.如果满足内存中的文档数为mergeFactor则触发内存索引写入磁盘  新增的segment文档数为mergeFact...

2009-11-18 11:30:00

阅读数:2665

评论数:0

lucene-2.9.0 数值类型的索引和检索分析

主要涉及几个类 NumericRangeQuery  数值型检索类,含(NumericRangeTermEnum)数值型词项迭代器NumericUtils               索引和检索时,数值型运算类NumericTokenStream 索引时解析数值型字段的类NumericField ...

2009-11-05 11:51:00

阅读数:2854

评论数:0

clucene的位置信息

 clucene可以通过TermDocs(SegmentTermDocs)和TermPositions(SegmentTermPositions)的文档信息和位置信息. 可以用此些类自己做高亮  void FindTermPosition( IndexReader* pReader, IndexS...

2009-11-04 09:50:00

阅读数:1896

评论数:0

clucene的highlighter

 clucene做高亮也有相应的highlighter包。 cppunit测试样例中有各种搜索的高亮,包括短语、模糊、范围等查询类型  //testSimpleHighlighter(); //testGetBestFragmentsSimpleQuery(); //testGetFuzzyFra...

2009-11-04 09:41:00

阅读数:2220

评论数:1

linux CentOS 5.3 yum源配置过程详解

原文见 http://hi.baidu.com/dilijia1002/blog/item/405d8e19407cdc73dab4bd18.html  1.以root用户进入CentOS系统。[root@xuxy ~]# cd /etc/yum.repos.d2.备份repo[root@xuxy...

2009-11-04 09:39:00

阅读数:2276

评论数:0

lucene-2.9.0 索引过程(三) 过程简述

 索引过程IndexWriter.addDocument(Document) line: 2428 IndexWriter.addDocument(Document, Analyzer) line: 2454DocumentsWriter.addDocument(Document, Analyze...

2009-10-30 15:00:00

阅读数:1835

评论数:0

lucene-2.9.0 索引过程(二) FreqProxTermsWriter

FreqProxTermsWriter类一 类功能将内存中的索引写入相应的索引文件(tis/tii/frq/prx)二、成员函数2.1 createPostings函数TermsHashPerThread::morePostings()会使用FreqProxTermsWriter::createP...

2009-10-28 15:02:00

阅读数:2136

评论数:0

lucene-2.9.0 索引过程(一) TermsHashPerField

TermsHashPerField 类 一、类功能概述:负责词项的索引过程,每个字段有相应的一个TermsHashPerField;当索引某字段词项时,使用对应TermsHashPerField的add()函数完成(一个)词项索引过程,并将索引内容(词项字符串/指针信息/位置信息等)存储于内存缓冲...

2009-10-25 16:17:00

阅读数:2724

评论数:0

lucene-2.9.0发布新版

本次发布的Lucene 2.9.0仍然兼容早期Lucene版本,并重构了大量API,在很多功能上进行了增强: Lucene 2.9.0增加了分段搜索和缓存 Lucene 2.9.0在IndexWriter中加入了接近实时搜索的能力。 Lucene 2.9.0引入了新的Query类型 Lucene ...

2009-10-25 16:09:00

阅读数:1946

评论数:0

CRF+Windows+Unicode

把CRF模块移植至Windows下,并修改成Unicode模式1.修改成Windows下不难,而且所幸nlpbamboo所用linux特有函数不多,   例如mmap   本想共享,不过nlpbamboo的那位大大一直联系不上,罢了。2.unicode    linux下用的是utf-8处理汉字,...

2009-09-22 14:01:00

阅读数:2115

评论数:2

linux动态库的调试

常规做法的用gdb调试      1)文件列表:   [root@localhost libketama]# ls -l总计 200-rw-r--r-- 1 1000 1000 12659 09-09 12:33 ketama.c-rw-r--r-- 1 1000 1000 12653 09-09...

2009-09-11 16:19:00

阅读数:2327

评论数:0

linux虚拟机安装samba

      我的linux是独立安装的,因为特殊原因不是双系统。所以每次都要切换windows和linux,切换的频繁了就有些不爽了。于是决定在windows下安装linux虚拟机.但是我有超过几个G的papers和几个G的sources需要来回共享,所以需要能比较方便的实现linux和windo...

2009-09-07 23:26:00

阅读数:3370

评论数:0

firtex的phrasequery问题

在firtex大家反映说phrasequery无效。所以跟踪了一下。不知道是不是我的版本有问题,从代码来看Query* q = QueryParser::parse(line,field,pAnalyzer,false);是不可能解析为PhraseQuery.因为都解析为布尔查询了(或者词项查询)...

2009-09-04 17:42:00

阅读数:2046

评论数:0

lucene的fuzzyquery和wildcardquery

1.fuzzyquery用编辑距离度量俩词项的相似度将所有相似的词项填充成布尔查询(或) 取所有相同前缀(前缀长度可以设定)的词项做编辑距离 2.wildcardquery lucene的wildcardquery是这样的:例如查询"华南*大学"首先根据匹配字符"*&...

2009-09-03 16:24:00

阅读数:8864

评论数:0

无语的CRF测试

跑了几天才把人民日报的预料训练完,做词性标注的。 随手做了些测试,发现一个很faint的结果 每句测试语句的首个词的词性都被标注为"m"数词 无论实际应该是人名/地名/机构名/名称等等。 由于我的印象中,CRF的记忆力是很强的。 于是看了一下训练的预料, 发现所有预料的第一个词...

2009-09-03 16:00:00

阅读数:1880

评论数:0

mysql中文插入和查询过程

备注:此字符集设置在LINUX下可行但WINDOWS不可行,应为gb2312mysql下添加表mysql> create table POI ( ID int(6) unsigned zerofill auto_incrementprimary key not null, DISTRICT ...

2009-07-21 20:59:00

阅读数:2945

评论数:0

Firtex的一个小bug

症状:索引如有字段无(一)数据,索引过程异常 原因:如该字段有数据,在索引中会生成norm文件_b.nm文件,b为索引桶序号,m为字段序号 合并过程中会打开该文件,写入临时文件_mid_0_0.nm(m为字段序号) 由于索引过程中自始至终无数据加入该字段,索引该_b.nm文件不存在,打开失败导致异...

2009-07-13 14:38:00

阅读数:1832

评论数:0

mysql操作命令

一、启动mysql服务 (1) rpm方式安装的mysql -设置自动启动 #ntsysv --level 3 -手工启动 #service mysqld start (2) 编译安装的mysql -设置自动...

2009-07-06 23:10:00

阅读数:1820

评论数:0

linux + mysql笔记

一 安装rpm安装后启动不成功,改用压缩包编译1)建立相应目录和组:# mkdir /usr/local/mysql# groupadd mysql# useradd -g mysql mysql                  //useradd -g mysql -d /usr/local/...

2009-07-06 22:40:00

阅读数:4820

评论数:1

libketama consistent hash (一致性hash) memcache 客户端

libketama        一致性hash有什么用呢?我们最常用的hash方法是这样的:server = serverlist[hash(key) % serverlist的个数]这样明显有一个缺点:当服务器的个数变化时,所有的hash都将无效,全部得重来一次。一致性hash就是解决这个问题...

2009-06-30 16:01:00

阅读数:1998

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭