java 庖丁分词_几种常见的中文分词包的分析与比较

本文介绍了中文分词的基本概念,包括基于字符串匹配、理解和统计的分词方法。重点分析了Lucene中的字符串匹配分词器,如paoding、mmseg4j和IK,以及庖丁分词的优势,如自定义词库和高效性能。文中还给出了庖丁分词的部署步骤和代码示例,展示了分词结果。
摘要由CSDN通过智能技术生成

1:中文分词简介

2:Lucence的中文分词

3:庖丁分词简介

4:IK中文分词简介

一:中文分词简介

1:分词算法分类

-----基于字符串匹配的中文分词方法

eg:句子:我来自沈阳航空航天大学

词典:沈阳  航空  航天  大学  沈阳航空航天大学

匹配字段:

匹配结果:

选取词典中最长字段作为分词起始的最长步伐,可知最长为8

首先在句子中以“我”为起点,数八个字“我来自沈阳航空航”在词典中没有匹配到,然后步长减一,为7

然后数七个字“我来自沈阳航空”同样在字典中没有匹配到,步长减一,为6

........

步长为1时依然没有匹配到,但是是单音节词了,所以存放在匹配结果中

以此执行,下一次从“是”开始......

所以最终的匹配结果是:我  来   自  沈阳航空航天大学  沈阳  航空  航天  大学

------基于理解的分词方法

类似于人工智能分词了,能够自动识别词语的意思,进行分词

------基于统计的分词方法

2:两大难题

----歧义识别

----新词识别

3:应用

----搜索引擎

----自然语言处理

二:Lucence的中文分词

1:基于字符串匹配的分词

----paoding

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值