N-gram模型的优缺点

最新推荐文章于 2024-08-20 03:21:11 发布

Sissi_cici

最新推荐文章于 2024-08-20 03:21:11 发布

阅读量9.4k

点赞数 3

分类专栏：查询扩展 NLP 文章标签：查询扩展 n-gram

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Eliza1130/article/details/23362825

版权

查询扩展同时被 2 个专栏收录

9 篇文章 0 订阅

订阅专栏

6 篇文章 0 订阅

订阅专栏

题外话：最近发现学了一些东东貌似都可以用在查询扩展上，慢慢开始总结一下吧，xixi~ 附一下查询扩展的解释吧

N-gram模型的优点在于它包含了前N-1个词所能提供的全部信息，这些词对于当前词的出现具有很强的约束力，然而它的缺点是需要相当规模的训练文本来确定模型的参数。当N很大时，模型的参数空间过大。所以常见的N值一般为1,2。还有因数据稀疏而导致的数据平滑问题，解决方法主要是使所有的N-gram概率之和为1和使所有的N-gram概率都不为0.

除此之外，与连续空间的词表示法语言学规则模型对比（例如word2vec构建出的词向量），N-gram语言模型还有以下的局限性：

N-gram模型是根据相互之间没有任何遗传属性的离散单元词而构建，从而不具备连续空间中的词向量所满足的语义上的优势：相似意义的词语具有相似的词向量，从而当系统模型针对某一词语或词序列调整参数时，相似意义的词语和词序列也会发生改变。

因此，如果在已知关键词权重非常大的情况下，使用N-gram模型或许比较合适。

关注

3
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。