Lucene之分词

分词:

①  单字切分

把一段文字按照每个字去建立索引。

如切分“我爱中华”,就会切成“我”,“爱”,“中”,“华”。这种分词法效率低,但也能解决一些问题。

 

②  二分法

二分法就是把一段文字的每两个相邻的字算作一个词。

如果用来切分“我爱中华”,就会切成“我爱”,“爱中”,“中华”。这种分词效率低,但比单字切分好得多。

 

③  词典法

词典法就是建立一个词典文件,然后使用词典和文字段落进行匹配,从而得出分词结果,在这种分词当中,词典和匹配算法是关键。

做词典和维护词典都不难,统计。匹配算法不好办,有最大匹配和最小匹配,正向匹配和逆向匹配。

 

④  语义法

这个方法在理论上是存在的,但从实际上讲也只是个名词,看到任何一段文字,让计算机将其正确理解出来,这个想法不可能。

 

 

 

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值