Elasticsearch_中文分词问题

最新推荐文章于 2022-10-23 16:00:59 发布

水陌轻寒L

最新推荐文章于 2022-10-23 16:00:59 发布

阅读量172

点赞数

分类专栏： 500-数据存储文章标签： elasticsearch

本文链接：https://blog.csdn.net/u013045987/article/details/120055484

版权

500-数据存储专栏收录该内容

9 篇文章 0 订阅

订阅专栏

本文探讨了中文分词中的歧义识别难题，特别是实体名识别的复杂性，以及新词发现与颗粒度问题。着重介绍了如何处理结婚的和尚、分子结合等歧义例子，并指出无监督实体识别的困境。此外，文章还提及了Ansj在新词发现上的简单方法和颗粒度决策的灵活性与局限性。

摘要由CSDN通过智能技术生成

文章目录

中文歧义的识别

比较出名的一句话“结婚的和尚未结婚的”，如果使用正向最大匹配，容易分成“结婚/的/和尚/未/结婚的”，于是有的学者试图倒过来识别，逆向匹配会大于正向。但是碰到这句“结合成分子时”，采用逆向最大匹配，则会分为“结合/成分/子时”，更有甚者像“咬了猎人的狗”这种语意不明的词语，就更不容易正确分词了。这是中文分词的软肋。下面是些典型的歧义句：

交叉歧义（多种切分交织在一起）：内塔内亚胡说的/确实/在理
组合歧义（不同情况下切分不同）：这个人/手上有痣、我们公司人手
真歧义（几种切分都可以）：乒乓球拍/卖/完了、乒乓球/拍卖/完了

实体名识别

这个是中文分词遇到的最大的难点，也是最最紧迫的。实体名识别包括人名识别、地名识别、机构名识别，还包括有监督识别和无监督识别。有监督的还好，无监督基本是无解的，比如“王大力发球”是“王大力”还是“大力发球”，一般人都难以识别。

新词热词发现

目前常用的新词发现还是一个比较有研究性的课题，虽然有些论文在准确率很高，但是大多是封闭测试，这意味着结果很难应用到实际工程中。目前Ansj采用的新词发现方式比较简单，采用了高频词的匹配方式，不使用规则，用统计重复串识别新词，根据词性去掉干扰词，虽然有一定的效果，但还是差强人意。

颗粒度问题

这个就是一个规则探讨的问题了，比如“北京大学”是“北京”+“大学”还是“北京大学”，人各有志，就连同一个人不同时间的标注也有可能是有区别的，虽然这个问题严格上来说不属于技术问题，但是对分词结果的评测却有着很大的关系，Ansj采用“能识别就识别”的策略方针，所以在真正R值的时候偏低，总之一句话，适合学术的不一定适合工业，反之亦然。