HanLP-基于HMM-Viterbi的人名识别原理介绍

最新推荐文章于 2021-12-24 18:33:01 发布

ciwei03773

最新推荐文章于 2021-12-24 18:33:01 发布

阅读量196

点赞数

文章标签：人工智能

Hanlp自然语言处理包中的基于HMM-Viterbi处理人名识别的内容大概在年初的有分享过这类的文章，时间稍微久了一点，有点忘记了。看了 baiziyu 分享的这篇比我之前分享的要简单明了的多。下面就把文章分享给大家交流学习之用，部分内容有做修改。

本文主要介绍一下 HanLP是如何利用HMM来做人名识别的。基本思想是把词语序列作为观测序列，将角色序列作为隐藏序列，当模型预测出最佳隐藏状态序列后，利用模式最大匹配法，匹配出人名实体。下边说一模型的三要素在这个应用中所对应的内容，因为训练阶段就是要求解这三个要素的值。

假设有下边的观测序列和其对应的隐藏序列

观察值序列：词 1 词2 … 词n

隐变量序列：角色 1 角色2 … 角色n

训练阶段： 统计三个要素（三个矩阵的元素值）

初始概率分布：

各隐变量标记意义列于下表

状态转移概率分布：

观测概率分布：

有关这些概率值的计算都很简单，就是频率法，留在后边介绍隐马时候再写。

预测阶段：

根据训练得到的三个要素，利用 Viterbi算法求解得到了最优隐藏变量序列角色1* 角色2* ... 角色n*

最大模式匹配阶段：

利用下边的模式串匹配出人名

{ BBCD, BBE, BBZ, BCD, BEE,BE,BG,BXD,BZ,CD,EE,FB, Y,XD}

基于 HMM-Viterbi标注的人名识别原理就介绍到这里，我想我应该把原理说清楚了，如果你还没有看明白，就等着后续的有关隐马的文章吧。基于隐马的人名识别会很容把以一个姓氏作为开头的词语识别为人名，特别是地名中有人名字的，因此，人工整理出一些非常用姓氏的人名，以及一些地名是必要的，后续如果整理出来了，我应该会放到专栏文章里，毕竟都是公开语料上做的，也就不涉及什么别的不方便。

来自 “ ITPUB博客 ” ，链接：http://blog.itpub.net/31524777/viewspace-2651544/，如需转载，请注明出处，否则将追究法律责任。

转载于:http://blog.itpub.net/31524777/viewspace-2651544/

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。