NLP各种语言模型的优缺点比较

最新推荐文章于 2024-07-25 06:30:00 发布

道墟散人

最新推荐文章于 2024-07-25 06:30:00 发布

阅读量4k

收藏 2

点赞数

分类专栏： NLP 文章标签：自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_36767053/article/details/108200073

版权

NLP 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

持续更新中…

1.n-gram

n-gram语言模型引入马尔科夫假设，假设当前单词出现的概率只与前n-1个单词有关。常见的unigram、bigram、trigram公式如下：
unigram
在这里插入图片描述

在这里插入图片描述

优点：(1) 采用极大似然估计，参数易训练；(2) 完全包含了前 n-1 个词的全部信息；(3) 可解释性强，直观易理解。
缺点：(1) 缺乏长期依赖，只能建模到前 n-1 个词；(2) 随着 n 的增大，参数空间呈指数增长；(3) 数据稀疏，难免会出现OOV的问题；(4) 单纯的基于统计频次，泛化能力差。

2.神经网络语言模型

神经语言模型使用连续表示或词汇Embedding来进行预测。

2.1 前馈神经网络语言模型（NNLM）

在这里插入图片描述
网络包含输入层、投影层、隐藏层和输出层。输入为前n-1个单词，然后将每个单词映射成为多维向量，再通过隐层去学习更深层次的表征，最后输出层通过softmax输出词表中每个单词出现的概率。
网络的第一层：将前n-1个单词的向量 $C(w_{t-n+1}), ..., C(w_{t-2}),C(w_{t-1})$ 进行拼接成为 $(n - 1) * m$ 维的向量，记为输出 $x$ 。
网络第二层：通过全连接的隐层进行训练 $H x + d$ ，其中 $H$ 为权重矩阵， $d$ 为偏置项，最后通过一个 $t a n h$ 激活函数。
网络的第三层：输出层的节点个数为词表的大小 $∣ V ∣$ ，每个节点 $y_i$ 表示单词 $w_i$ 预测为下个单词的概率。最终通过softmax进行归一化输出。 $\\ p=softmax(y)$

优点：利用神经网络去建模当前词出现的概率与其前 n-1 个词之间的约束关系，相比 n-gram 具有更好的泛化能力。
缺点：同样仅包含了有限的前文信息

2.2 循环神经网络语言模型（RNNLM）

https://blog.csdn.net/huanghaocs/article/details/77935556
https://zhuanlan.zhihu.com/p/52061158

道墟散人

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。

余额充值