ik分词器 分词原理_分词技术及开源分词器

50ba4c8f8b9c70b9d30e0e7644b958a4.png

分词是自然语言处理的第一步,这里主要从序列标注的角度递进介绍HMM如何实现分词,然后介绍分词工具的使用,在NLP中,分词、词性标注和命名实体识别都属于标注任务,也就是对token进行分词,对于分词任务难点有以下几个:

  1. 新词的发现

未登陆此(人名、地名、商标名、公司名称)

2. 词典与算法优先级

我们 中信 仰 佛教 的 人

3. 歧义(颗粒度、交集等)

股份 有限公司 、郑州天和服装厂

分词的算法大致分为两种:

1.基于词典的分词算法

正向最大匹配算法

逆向最大匹配算法

双向匹配分词法

2.基于统计的机器学习算法

HMM、CRF、SVM、LSTM+CRF

这里列出一些开源的分词系统:

语义分析系统 NLPchina/ansj_segHIT-SCIR/ltp清华大学

The Stanford Natural Language Processing GroupHanlp分词器

yanyiwu/cppjiebakoth/kcws

frcchang/zpar

wks/ik-analyzer

接下来采取理论与代码相结合的方式,介绍HMM分词器的使用:

2.

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值