深度学习DAY3：FFNNLM前馈神经网络语言模型

小白脸cty

已于 2023-10-10 16:36:30 修改

阅读量1.1k

点赞数 2

分类专栏：深度学习文章标签：深度学习神经网络语言模型

于 2023-10-10 15:08:49 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_62865498/article/details/133744568

版权

1 神经网络语言模型NNLM的提出

文章：自然语言处理中的语言模型预训练方法（ELMo、GPT和BERT）
https://www.cnblogs.com/robert-dlut/p/9824346.html

语言模型不需要人工标注语料（属于自监督模型），所以语言模型能够从无限制的大规模语料中，学习到丰富的语义知识。
在这里插入图片描述

1.1 n-gram模型问题：

①模型高度依赖训练语料，泛化能力差，也就是不同文本之间的n-gram差异很大

②模型估算概率时遇到的数据稀疏，平滑后效果也不好

在这里插入图片描述

点—— 用n-gram语料库训练出来的每个词序列的出现的概率
平滑曲线——所有词序列概率相乘所得的P（S），也就是有这些词序列所组成的句子的出现概率

在这里插入图片描述

离散点与曲线的距离——点1是词序列1的概率，但是离散词序列点1没在平滑曲线L上面，也就是n-gram模型会将该离散词序列1附近的另一个词序列2（在平滑曲线上）的概率作为离散词序列点1的概率去建立模型。而词序列2不一定在语料库中有出现
因此，n-gram所建立的模型对某个句子进行预测时，会有较大的概率损失。
这是无论怎么平滑都无法避免的，因为建立模型的概率点是离散的。
特别是差异很大的异常点，会对模型的结果造成比较大的影响

③n元模型无法建立长期联系

④n-gram以离散符号为统计单元，无法体现语义相似性

在这里插入图片描述
由于数据是离散的，如果特别能没有在语料库出现过，而能在语料库中的出现概率很大但是特别能和能意思相近，那么根据n-gram的计算原理，两个已经意思相近的句子的出现概率可能一个为0，一个很大，而实际上两个句子的出现概率差不多，因此会有很大的概率损失误差。

1.2 NNLM 的提出

神经网络NN

为了解决这个问题，我们在将神经网络（

最低0.47元/天解锁文章

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

小白脸cty CSDN认证博客专家 CSDN认证企业博客

码龄3年

61: 原创

118万+: 周排名

31万+: 总排名

7万+: 访问

: 等级

675: 积分

22: 粉丝

55: 获赞

9: 评论

355: 收藏

私信

关注

热门文章

分类专栏

数据结构 3篇
C 8篇
java 3篇
机器学习 3篇
深度学习 7篇

最新评论

python实验报告8线性代数操作和matplotlib
小白脸cty: 是学姐嘞
python实验报告8线性代数操作和matplotlib
骐骥596: 学长太棒了！
深度学习DAY2:n-gram
白话机器学习: 内容丰富图文并茂，认真看完收获很大。思路清晰细节满满，支持大佬优质好文。
C:数组传值调用和传地址调用
白话机器学习: 文章写得专业、深入、详细，收藏啦
python--UTF-8编码避免乱码的源代码头文件
CSDN-Ada助手: 恭喜博主撰写了关于UTF-8编码的文章，这篇文章对于避免乱码问题提供了很好的解决方案。建议下一步可以探讨更多关于Python编码的问题，比如如何在不同系统中处理编码问题等。期待博主更多优质的文章，共同分享学习心得。 CSDN 会根据你创作的前四篇博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply4 看奖励名单。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。