公司名称分词工作记录

搬砖咸鱼

已于 2022-04-17 22:38:28 修改

阅读量2.1k

点赞数

分类专栏：工作记录文章标签：分词 HanLP

于 2019-03-13 09:34:34 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_31802135/article/details/88525020

版权

本文记录了使用HanLP处理公司名称分词的过程，重点在于隐马尔可夫模型和自定义字典的使用。文章指出HanLP在处理组织形式和经营类型时的不足，并分享了解决方案，包括导入内部字典、逻辑判断优化等。同时讨论了动态规划、维特比算法和AC算法在分词中的作用，以及自定义字典的词频设置问题。

摘要由CSDN通过智能技术生成

最近要处理公司名称分词问题，开始接触分词算法，其中隐马尔可夫模型是分词的核心（使用的分词器是 HanLP，词性表）。处理公司名称真正的难点在于名称中 “所属行业” 与 “公司字号” 二者间的有效分隔。也就是隐马尔可夫模型处理的部分。至于所属地区以及公司类别，则是依赖字典匹配解决。

HanLP 的机构名称训练语料库对于机构名称种类的覆盖程度不高，需要从外部导入行业表述的字典。网上没有相关的字典资源可供下载，选择使用公司内部的字典加以词性标注并导入。

初步统计，组织形式经营类型约63种，其中能通过逻辑判断进一步优化的16个以上。包括：“部”、“处”、“社” 以及“中心” 向前截取两字符；“分”字向后截取一个字符。HanLP 基本覆盖大部分经营类型，缺少的部分为：“分”、“部”字词组，合作社，联合社。

从《数学之美》一书中了解到，现今人工智能的发展依赖于统计学为基础的数据收集分析。也就是现阶段的语音识别、机器翻译等功能皆依靠对大量数据收集然后总结出规律模式再进行应用(AI资源网站)。

重要概念记录：

最大熵模型：

对随机事件的分布概率进行预测时，应当满足全部已知条件，对未知情况不做任何主观假设。此时概率分布最均匀，预测的风险最小。

维特比算法:

第一步：从S点出发，对于状态1的所有节点，假定有 a 个，计算出S到各个节点的最短距离。
第二步

最低0.47元/天解锁文章

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。