新词发现（一）：基于统计

浅唱书令

已于 2023-06-01 14:17:50 修改

阅读量79

点赞数

分类专栏：人工智能文章标签：算法机器学习人工智能

于 2017-04-12 15:43:00 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/keyboardlabourer/article/details/130980446

版权

人工智能专栏收录该内容

48 篇文章 11 订阅 ¥19.90 ¥99.00

订阅专栏

本文介绍了新词发现的重要性，特别是针对统计模型在领域适应性方面的局限性。基于统计的新词发现算法通过内部凝固度和自由运用程度来判断新词，其中信息熵起到了关键作用。作者使用此算法对《西游记》和京东商品标题的语料进行实验，发现了一些有意义的新词，但也存在部分误判和脏词。该算法作为强大的基线，适用于不同领域的新词挖掘。

摘要由CSDN通过智能技术生成

1. 什么是新词

现在大部分的分词工具已经做到了准确率高、粒度细，但是对于一些新词(new word)却不能做到很好地识别，比如：

快的打车优惠券
英雄联盟怎么不可以打排位

“快的”、“英雄联盟”应该被作为一个词，却被切成了两个词，失去了原有的语义。未登录词(out-of-vocabulary, OOV)笼统地之未在词典中出现的词，序列标注方法HMM与CRF可以根据上下文很好地识别未登录词，但是这种模型缺乏领域自适应能力 [1]：

模型对训练语料所在领域的语言现象处理可能表现出较好的性能，但一旦超出领域范围或测试集与训练样本有较大差异，模型性能将大幅度下降。例如，在标注的大规模《人民日报》分词语料上训练出来的汉语词语自动切分模型的准确率可达96%左右，甚至更高，但在微博等非规范文本基础上训练出的分词性能至少要低5个百分点左右。在LDC汉语树库上训练出来的句法分析系统准确率可达86%左右，但在非规范网络文本上的分析准确率只有60%左右(宗成庆 2013)。统计模型对领域自适应能力的缺乏严重制约了该方法的应用。

因此，对于“快的”、“英雄联盟”这样最近才出来的词未能识别。我们定义新词为具有基本词汇所没有的新形式、新语

了解本专栏

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

浅唱书令 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。