Hanlp实战HMM-Viterbi角色标注中国人名识别

最新推荐文章于 2023-11-14 16:51:57 发布

adnb34g

最新推荐文章于 2023-11-14 16:51:57 发布

阅读量594

点赞数

分类专栏：自然语言处理文章标签：中国人名识别 hanlp 角色标注

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/adnb34g/article/details/83268490

版权

本文介绍了如何使用HanLP进行人名识别，通过HMM-Viterbi角色标注算法，实现了对中文文本中人名的准确识别。在实际测试中，对复杂句子和冷僻名字的识别表现出色。作者基于《基于角色标注的中国人名自动识别研究》论文进行了改进，包括自动标注角色、统计标签频次和模式匹配等步骤。在处理过程中，发现并解决了如三字名称拆分问题、语料库错误和词典局限性等问题。代码已开源在HanLP项目中。

摘要由CSDN通过智能技术生成

这几天写完了人名识别模块，与分词放到一起形成了两层隐马模型。虽然在算法或模型上没有什么新意，但是胜在训练语料比较新，对质量把关比较严，实测效果很满意。比如这句真实的新闻“签约仪式前，秦光荣、李纪恒、仇和等一同会见了参加签约的企业家。”，分词结果：[签约/v, 仪式/n, 前/f, ，/w, 秦光荣/nr, 、/w, 李纪恒/nr, 、/w, 仇和/nr, 等/u, 一同/d, 会见/v, 了/ul, 参加/v, 签约/v, 的/uj, 企业家/n, 。/w]，三个人名“秦光荣”“李纪恒”“仇和”一个不漏。一些比较变态的例子也能从容应对，比如下面：

这是hankcs将自己的分词与ansj作比较得出的结果，由于自己可以随时调整算法，所以主场占了很大便宜。但是第一句绝对没有放水，说实话能识别出“仇和”这么冷僻的名字着实让人惊喜了一下。

开源项目

本文代码已集成到HanLP中开源：

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。