新词的发现方法

最新推荐文章于 2024-04-08 09:40:44 发布

anniesqq

最新推荐文章于 2024-04-08 09:40:44 发布

阅读量435

点赞数

分类专栏：操作系统定制技术文章标签：自然语言处理操作系统

本文链接：https://blog.csdn.net/weixin_42534168/article/details/115712161

版权

2 篇文章 0 订阅

订阅专栏

候选新词的提取

由于中文是由单个语素无间隔的组合形成，理论上来说，任意语素之间都有结合形成一个词或单语素成词的可能，因此词语边界的确定就成为一个问题，当然这也是需要中文分词的原因。
候选新词的过滤

对于候选新词，用什么标准判断这是一个符合条件的词，即是候选字符串必须是“新”的且能称为一个“词”
新词的词性猜测

基于规则的方法一般通过语言专家根据构词学原理、配合语义信息或词性信息来构造模板，然后匹配新词。

优点：准确率高, 针对性强,

缺点：手工编写和维护规则困难且规则一般是领域相关的, 所以适应性和移植性比较差

目前不常直接使用规则，更多的是作为一个附加模块与其他方法相结合，如在候选词过滤中，作为垃圾串的过滤模块使用。

通过对语料中的词条组成或特征信息进行统计来识别新词

优点：灵活、适应能力强, 可移植性好,

缺点：需要大规模语料进行模型训练, 由于使用的语言知识较少, 一般都存在数据稀疏和准确率低的问题。

目前大部分研究者使用规则和统计相结合的方法, 来取长补短。

在大规模训练语料的支持下, 将候选新词提取问题转化为分类或标注问题

监督方法的模型有很多，如：基于普通统计特征（将候选新词识别问题看作分类问题, 使用统计特征, 如共现频率、独立词概率等作为分类标准, 来区分新词和非新词）、基于隐马尔科夫模型 (HMM)、基于决策树 (DT)、基于支持向量机模型 (SVM)、基于最大熵模型 (ME) 、条件随机域模型 (CRF)等

优点：在技术上相对成熟, 产生的垃圾串较少, 识别准确率较高, 对于低频词有更好的识别效果, 适用于在线的新词识别

缺点：需要大规模训练语料或进行复杂的语料处理, 前期准备工作复杂。

无监督方法没有大规模标注语料，一般利用候选字符串的统计信息，设定阈值进行判别。这种情况下的候选字符串都是在无监督的方式下得到的，因此需要进行大量的过滤操作，得到相对纯净的候选新词。

无监督方法的模型有：基于启发规则、基于普通重复串统计方法、基于高效的重复串统计算法

优点：对新造词识别效果好, 而且新词长度不受限制, 无需大规模训练语料支持

缺点：低频新词的召回效果较差, 特别是只出现一次的新词。由于提取候选串没有监督, 垃圾串较多, 需要复杂的过滤方法, 因此, 其效率不高, 不适合在线新词抽取。

参考

新词发现：中文新词识别技术简介 https://blog.csdn.net/sinat_33741547/article/details/81704798
中文新词识别技术综述 https://kns.cnki.net/KXReader/Detail?TIMESTAMP=637513600272547421&DBCODE=CJFD&TABLEName=CJFD2010&FileName=JSJA201003005&RESULT=1&SIGN=192s9QYukBmh8oqbA1xeYnAuEb0%3d

关注