新词的发现方法

0 新词识别的任务

  1. 候选新词的提取

    由于中文是由单个语素无间隔的组合形成,理论上来说,任意语素之间都有结合形成一个词或单语素成词的可能,因此词语边界的确定就成为一个问题,当然这也是需要中文分词的原因。

  2. 候选新词的过滤

    对于候选新词,用什么标准判断这是一个符合条件的词,即是候选字符串必须是“新”的且能称为一个“词”

  3. 新词的词性猜测

1 基于规则的新词识别

基于规则的方法一般通过语言专家根据构词学原理、配合语义信息或词性信息来构造模板,然后匹配新词。

优点:准确率高, 针对性强,

缺点:手工编写和维护规则困难 且规则一般是领域相关的, 所以适应性和移植性比较差

目前不常直接使用规则,更多的是作为一个附加模块与其他方法相结合,如在候选词过滤中,作为垃圾串的过滤模块使用。

2 基于统计的新词识别

通过对语料中的词条组成或特征信息进行统计来识别新词

优点:灵活、适应能力强, 可移植性好,

缺点:需要大规模语料进行模型训练, 由于使用的语言知识较少, 一般都存在数据稀疏和准确率低的问题。

目前大部分研究者使用规则和统计相结合的方法, 来取长补短。

3 基于规则与统计相结合的方法

3.1 监督方法

在大规模训练语料的支持下, 将候选新词提取问题转化为分类或标注问题

监督方法的模型有很多,如:基于普通统计特征(将候选新词识别问题看作分类问题, 使用统计特征, 如共现频率、独立词概率等作为分类标准, 来区分新词和非新词)、基于隐马尔科夫模型 (HMM)、基于决策树 (DT)、基于支持向量机模型 (SVM)、基于最大熵模型 (ME) 、条件随机域模型 (CRF)等

优点:在技术上相对成熟, 产生的垃圾串较少, 识别准确率较高, 对于低频词有更好的识别效果, 适用于在线的新词识别

缺点:需要大规模训练语料或进行复杂的语料处理, 前期准备工作复杂。

3.2 无监督方法

无监督方法没有大规模标注语料,一般利用候选字符串的统计信息,设定阈值进行判别。这种情况下的候选字符串都是在无监督的方式下得到的,因此需要进行大量的过滤操作,得到相对纯净的候选新词。

无监督方法的模型有:基于启发规则、基于普通重复串统计方法、基于高效的重复串统计算法

优点:对新造词识别效果好, 而且新词长度不受限制, 无需大规模训练语料支持

缺点:低频新词的召回效果较差, 特别是只出现一次的新词。由于提取候选串没有监督, 垃圾串较多, 需要复杂的过滤方法, 因此, 其效率不高, 不适合在线新词抽取。

参考

  1. 新词发现:中文新词识别技术简介 https://blog.csdn.net/sinat_33741547/article/details/81704798
  2. 中文新词识别技术综述 https://kns.cnki.net/KXReader/Detail?TIMESTAMP=637513600272547421&DBCODE=CJFD&TABLEName=CJFD2010&FileName=JSJA201003005&RESULT=1&SIGN=192s9QYukBmh8oqbA1xeYnAuEb0%3d
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值