田春峰ID:accesine960
738976次访问,排名45好友15人,关注者80
请用一段话来描述您自己,如性格、爱好、生活态度、工作情况、受教育状况等。让大家更了解你,不要超过1000个汉字
accesine960的文章
原创 245 篇
翻译 10 篇
转载 33 篇
评论 544 篇
田春峰的公告

天天多么乐

田春峰

accesine's Rapleaf Score

关于我的信息链接

Donews Blog

Subscribe with Bloglines

my qq number
最近评论
Kevinsh:认同jiaomeng的观点, 错误 != 误差. 个人认为误差是测量值和实际值之间的差别, 和机械加工中偏差有点像, 应该在可接受的范围内. 错误的值完全不同于实际值,比如一个球的颜色是实际值正红色(0xFF0000), 0xFF0001认为是误差,而0x00FF00就是错误了. Bloom Filter中的错误概率比较低时, 比如<0.001%, 认为是可接受的, 错误忽略. 还有个……
chan ming:B to B SERACHENGINE PARTNER WANTED

搜索引擎技术总监 兼職亦可 賣軟件亦可 按件計外包 亦可

提供 “大事业、大学校、大家庭”的平台为每一位员工造就了人生与事业的舞台,让员工与企业共同发展。

共圖大業亦可 本公司有殺着 本公司高超生意頭腦 必能為相方帶來成功感, ……
irplay:C#失去的不仅仅是CPU和内存,更多的失去了客户.
MS的商业策略可以抹杀.net程序员的成功...足以致命.
eastseek:同感, 同感,

加上一条: lucene要结合好DB query很困难。

自己写个cpp的索引和查询器,工作量也不大,
(只要写过CPP超过1年的工程师都顺利拿下)。

尤其是LUCENE的排序,TCL。

hsl:lucene群63609991,欢迎加入
文章分类
收藏
相册
Computer Pic
domolo
life
lucene
MsnRobot DingDang
searchengine
search-engine
seo
个人信息
其他
.net
C++
os
sp
工作流
开发工具
名人连接
数据库相关
搜索引擎
网络开发
我的好朋友
移动开发
组件
存档
软件项目交易
订阅我的博客
XML聚合  FeedSky
订阅到鲜果
订阅到Google
订阅到抓虾
订阅到BlogLines
订阅到Yahoo
订阅到GouGou
订阅到飞鸽
订阅到Rojo
订阅到newsgator
订阅到netvibes

原创 不同规则的中文分词对Lucene索引的影响收藏

新一篇: JDon Banq 又成了讨论的热点 | 旧一篇: 计算所汉语词法分析系统ICTCLAS 字典格式解析

不同规则的中文分词对Lucene索引的影响

                                                                                                                              田春峰

在中文全文索引中为了建立反向索引需要对文档中的句子进行切分,相关理论请参见车东的介绍。

lucene 1.3 以后的版本中支持中文建立索引了,他默认的切分规则是按一个个汉字分的。例子见后。

这里主要对比以下3种中文切分对lucene 索引的影响。

第一种:默认的单字切分;

第二种:二元切分(见车东的文章);

第三种:按照词义切分(使用小叮咚的逆向最大切分法)。

上面3种切分的效果如下:

原句:"搜索引擎的发展历史证明,没有做不到只有想不到,让人们更方便准确的获取信息是搜索引擎的使命。"

    Lucene默认分词结果:

    org.apache.lucene.analysis.standard.StandardAnalyzer:

       [] [] [] [] [] [] [] [] [] [] [] [] [] [] [] [] [] [] [] [] [] [] [] [] [] [] [便] [] [] [] [] [] [] [] [] [] [] [] [] [] [使] []

   二元切分结结果:

    org.apache.lucene.demo.CJKAnalyzer:

      [搜索] [索引] [引擎] [擎的] [的发] [发展] [展历] [历史] [史证] [证明] [没有] [有做] [做不] [不到] [到只] [只有] [有想] [想不] [不到] [让人] [人们] [们更] [更方] [方便] [便准] [准确] [确的] [的获] [获取] [取信] [信息] [息是] [是搜] [搜索] [索引] [引擎] [擎的] [的使] [使命]

    小叮咚切分结果:

    org.apache.lucene.demo.ChineseAnalyzer:

      [搜索] [引擎] [] [发展] [历史] [证明] [] [] [不到] [只有] [] [不到] [人们] [] [方便] [准确] [] [获取] [信息] [] [搜索] [引擎] [] [使命]

   

    Lucene索引中,最小的索引单位是Token。基本上可以这样理解Token,在英文中Token是一个单词,在汉语中是不同切分结果中[]内的单词。

   

我的测试数据:
今天各大网站和blog的新闻,包括经济、政治、教育、娱乐、科技等几大类总共212K的文本文件。

    经过Lucene生成索引后的统计信息如下:

    单字切分:


   
单字切分的前15Term

    
 

    词义切分:


   
词义切分的前15Term

    

    通过上面的对比可以看出: 单字切分的Term要比词义切分的Term。原因很明显,汉语中常用的字大概4000多个,所以单字切分的Term上限也大概就是这么多,词义切分就不同了,我这里的词义词典大概有4万多个。

    从直觉观察来看,索引文件中的Term越多,搜索结果也越快,搜索的相关性也越高。

    另外一个有意思的情况是索引文件大小的变化。

    在我得测试数据大概80K大小的时候,上面的两种方法产生的索引文件区别不大,可是当数据量大于100K的时候,单字切分的索引文件已经比词义切分索引文件大了30K了。由于目前对索引文件格式还不了解,现在只能猜测为什么会出现这样的结果了。因为单字切分的Term少,那么指向这个Term的链接信息就越多,(搜索结果也越不相关)。反之亦然。

        上面的测试数据中没有过滤常用的汉字。常用的汉字对搜索是没有作用的,比如:的,是等。 
    20041228
   

       csdn 的blog 不稳定才发到这里,呵呵

      参考:机器人-小叮咚    小叮咚的主页       
                  搜索引擎:数字信息搜索,理论著作

发表于 @ 2004年12月28日 14:47:00|评论(loading...)|编辑

新一篇: JDon Banq 又成了讨论的热点 | 旧一篇: 计算所汉语词法分析系统ICTCLAS 字典格式解析

评论

#田春峰 发表于2005-01-08 11:51:00  IP:
TrackBack来自《一种面向搜索引擎的中文切分词方法》

Ping Back来自:blog.csdn.net
#Confluence: Framework 发表于2006-07-27 23:15:00  IP: 218.80.171.*
TrackBack来自《??????????Lucene?????》

??????????{}{}Lucene{}{}?????&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; ???
#Raidery 发表于2005-01-27 16:16:00  IP: 218.108.31.*
搞人,有共享代码没
#kent 发表于2005-02-03 11:30:00  IP: 219.130.55.*
继续发好文, 支持你!
#domenic 发表于2005-02-23 15:39:00  IP: 221.200.106.*
请问你是如何得到这些文本文件的?
“今天各大网站和blog的新闻,包括经济、政治、教育、娱乐、科技等几大类总共212K的文本文件”
#Kavon 发表于2005-04-20 11:53:00  IP: 61.233.144.*
到底哪里有源代码~~
说共享,怎么都找不到,
版主能不能把第三种的源代码发一份给我,
做毕业设计,急用!!
谢谢!
cengjinwei@163.com
#乌鸦 发表于2005-04-29 14:39:00  IP: 218.72.33.*
ChineseAnalyzer好像有个问题:对数字和单个的字母检索没有支持
#毛毛 发表于2005-05-29 11:17:00  IP: 61.186.252.*
直观来看,第三种效果不错,版主能否将原代码发一份过来。我也做了一个分词软件,单没你的好。
email:binzh@163.com
#zbboy 发表于2006-09-04 10:48:00  IP: 219.245.113.*
能给我发一份源代码么
zhoubenbo@126.com
研究研究下
发表评论  


登录
Csdn Blog version 3.1a
Copyright © 田春峰