中文分词—基于Lucene的分词器—支持中英文混合词

最近自己动手写了一个中文分词器,没有什么高深的算法,就是基于词库匹配的一个简单程序。

该分词器支持中英文混合词,像“大s” ,“小3” 什么的,只要自己的词库有这个词,他就能分出来。

这个分词原理是正向最大匹配,不过只有简单消除歧义。

个人觉得消除歧义的话,只适合部分句子,有时候消除歧义反而会让有些正常语句分出不好的结果来。

该程序没有做过多消除歧义,个人觉得消除歧义这种方法对于一个通用的分词器作用很大。

如果你的分词器是用来针对某个领域的话,消除歧义不建议使用,如果你了解分词原理并对消除歧义测试结果做过大量测试的话,你会发现这点。(这只代表我个人观点,不喜勿喷)

现在开始介绍下该分词器:

分词原理 : 假如有这么一句话   "你好,我是TomcatTD"

程序接收到这句话后,会从左到右依次读取,遇到标点符号的话截断,出现的每个词都和词库进行比较,如果词库里没有这个词,则取下个字开头的词

例子

你好

你好,

我是

TomcatTD

如果你词库里有 ”你好“,“我是” 这两个词的话

他就会分出来

最后结果是: 你好      ,        我是          TomcatTD

 如果是“大s的妈妈病了”

只要你在词库里添加 “大s” “妈妈” “病了”

就会分出 “大s          的           妈妈           病了”

 

转载于:https://www.cnblogs.com/tomcattd/archive/2012/12/27/2835591.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值