公司名称分词工作记录

本文记录了使用HanLP处理公司名称分词的过程,重点在于隐马尔可夫模型和自定义字典的使用。文章指出HanLP在处理组织形式和经营类型时的不足,并分享了解决方案,包括导入内部字典、逻辑判断优化等。同时讨论了动态规划、维特比算法和AC算法在分词中的作用,以及自定义字典的词频设置问题。
摘要由CSDN通过智能技术生成

最近要处理公司名称分词问题,开始接触分词算法,其中隐马尔可夫模型是分词的核心(使用的分词器是 HanLP,词性表)。处理公司名称真正的难点在于名称中 “所属行业” 与 “公司字号” 二者间的有效分隔。也就是隐马尔可夫模型处理的部分。至于所属地区以及公司类别,则是依赖字典匹配解决。

HanLP 的机构名称训练语料库对于机构名称种类的覆盖程度不高,需要从外部导入行业表述的字典。网上没有相关的字典资源可供下载,选择使用公司内部的字典加以词性标注并导入。

初步统计,组织形式经营类型约63种,其中能通过逻辑判断进一步优化的16个以上。包括:“部”、“处”、“社” 以及“中心” 向前截取两字符;“分”字向后截取一个字符。HanLP 基本覆盖大部分经营类型,缺少的部分为:“分”、“部”字词组,合作社,联合社。

从《数学之美》一书中了解到,现今人工智能的发展依赖于统计学为基础的数据收集分析。也就是现阶段的语音识别、机器翻译等功能皆依靠对大量数据收集然后总结出规律模式再进行应用(AI资源网站)。

重要概念记录:

最大熵模型

对随机事件的分布概率进行预测时,应当满足全部已知条件,对未知情况不做任何主观假设。此时概率分布最均匀,预测的风险最小。

维特比算法:

第一步:从S点出发,对于状态1的所有节点,假定有 a 个,计算出S到各个节点的最短距离。
第二步

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值