最近要处理公司名称分词问题,开始接触分词算法,其中隐马尔可夫模型是分词的核心(使用的分词器是 HanLP,词性表)。处理公司名称真正的难点在于名称中 “所属行业” 与 “公司字号” 二者间的有效分隔。也就是隐马尔可夫模型处理的部分。至于所属地区以及公司类别,则是依赖字典匹配解决。
HanLP 的机构名称训练语料库对于机构名称种类的覆盖程度不高,需要从外部导入行业表述的字典。网上没有相关的字典资源可供下载,选择使用公司内部的字典加以词性标注并导入。
初步统计,组织形式经营类型约63种,其中能通过逻辑判断进一步优化的16个以上。包括:“部”、“处”、“社” 以及“中心” 向前截取两字符;“分”字向后截取一个字符。HanLP 基本覆盖大部分经营类型,缺少的部分为:“分”、“部”字词组,合作社,联合社。
从《数学之美》一书中了解到,现今人工智能的发展依赖于统计学为基础的数据收集分析。也就是现阶段的语音识别、机器翻译等功能皆依靠对大量数据收集然后总结出规律模式再进行应用(AI资源网站)。
重要概念记录:
最大熵模型:
对随机事件的分布概率进行预测时,应当满足全部已知条件,对未知情况不做任何主观假设。此时概率分布最均匀,预测的风险最小。
维特比算法:
第一步:从S点出发,对于状态1的所有节点,假定有 a 个,计算出S到各个节点的最短距离。
第二步