CLucene 中文分词

CLucene 中文分词
clucene是c++版的lucene,可从CLucene - a C++ search engine http://sourceforge.net/projects/clucene/下载得到代码和最近研究信息。

我在看了《lucene in arction》一周之后,在7月中旬正式开始调研clucene,由于其中的中文不能再demo示例中检索得到,在网上收集clucene中文分词相关资料,发现主要有三个方面:

1、字符编码集问题:

项目设置:必须设置为Use Unicode Character Set。
因为使用ANSI时,汉字存在与其他语言编码重叠的问题,在分析文本时,很难判断一个char是否是半个汉字,或者是前半个汉字还是后半个汉字。同时,CLucene对UCS2编码能够提供支持,所以VC项目直接设置为Use Unicode Character Set。

对应的字节函数改变:\src\CLucene\util\Misc.cpp,line 76的Misc::_cpycharToWide函数
这个函数是CLucene中用来将char字符串转换为wchar_t字符串,但原有代码中的转化方式是不考虑编码,因此对汉字由ANSI到UCS2转换会失效,需要修改成使用windows API的MultiByteToWideChar函数

2、中文分词添加:

主要有2个方向:1)、 \src\CLucene\analysis\standard\StandardTokenizer.cpp
这个类实现了最基本的切分文本功能,包含英文分词、数字提取。虽然有包含CJK单字提取,但是不够完善。直接完善这里面的StandardTokenizer::ReadCJK处理中文函数;2)、添加一个新的 ChineseTokenizer.cpp处理中文分词问题;3)、中文分词方法:2分法,基于词典匹配法等,根据需要确定合适的方法,并不是越复杂越好。

我花了大约2周时间去跟踪clucene里面的索引建立和查询过程,最终只改了几行代码实现了简单的2分词法,实现了中文检索。

详细的网址信息:

[url]http://hi.baidu.com/developer_chen/blog/item/8c4c62dfc5a3a7124954039c.html[/url]
[url]http://hi.baidu.com/_1_1_1_1/blog/item/be1fe41f9fbf0f62f724e475.html[/url]
[url]http://www.cnblogs.com/sunli[/url]
下面这篇文章非常好,阐述了系统架构和部分对象层次结构,有利于大家对lucene的深入理解,推荐给大家。

开放源代码的全文检索引擎Lucene
[url]http://blog.csdn.net/heiyeshuwu/archive/2006/04/14/662805.aspx[/url]对于中文分词,实际上一般需求都比较简单,不需要太复杂,大家可随意尝试。对于大型 系统来说,毕竟速度是非常重要的。


cy163
关注 - 1
粉丝 - 3
关注博主0 0 0
(请您对文章做出评价)« 上一篇:下载 Clucene PPC RedHat 各种版本 [url]http://www.cnblogs.com/cy163/archive/2008/06/05/1214672.html[/url] 的地址
» 下一篇:Clucene C++编码转换 [url]http://www.cnblogs.com/cy163/archive/2008/06/05/1214736.html[/url]
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值