新词发现(一):基于统计

48 篇文章 11 订阅 ¥19.90 ¥99.00
本文介绍了新词发现的重要性,特别是针对统计模型在领域适应性方面的局限性。基于统计的新词发现算法通过内部凝固度和自由运用程度来判断新词,其中信息熵起到了关键作用。作者使用此算法对《西游记》和京东商品标题的语料进行实验,发现了一些有意义的新词,但也存在部分误判和脏词。该算法作为强大的基线,适用于不同领域的新词挖掘。
摘要由CSDN通过智能技术生成

1. 什么是新词

现在大部分的分词工具已经做到了准确率高、粒度细,但是对于一些新词(new word)却不能做到很好地识别,比如:

快的打车优惠券
英雄联盟怎么不可以打排位

“快的”、“英雄联盟”应该被作为一个词,却被切成了两个词,失去了原有的语义。未登录词(out-of-vocabulary, OOV)笼统地之未在词典中出现的词,序列标注方法HMM与CRF可以根据上下文很好地识别未登录词,但是这种模型缺乏领域自适应能力 [1]:

模型对训练语料所在领域的语言现象处理可能表现出较好的性能,但一旦超出领域范围或测试集与训练样本有较大差异,模型性能将大幅度下降。例如,在标注的大规模《人民日报》分词语料上训练出来的汉语词语自动切分模型的准确率可达96%左右,甚至更高,但在微博等非规范文本基础上训练出的分词性能至少要低5个百分点左右。在LDC汉语树库上训练出来的句法分析系统准确率可达86%左右,但在非规范网络文本上的分析准确率只有60%左右(宗成庆 2013)。统计模型对领域自适应能力的缺乏严重制约了该方法的应用。

因此,对于“快的”、“英雄联盟”这样最近才出来的词未能识别。我们定义新词为具有基本词汇所没有的新形式、新语

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

浅唱书令

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值