（2019）CS224N Lecture 6 Language Models and RNNs 笔记 (2)

最新推荐文章于 2021-12-01 17:14:06 发布

青溪照月

最新推荐文章于 2021-12-01 17:14:06 发布

阅读量90

点赞数

分类专栏： NLP

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_33599188/article/details/89164783

版权

NLP 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

自用，都是ppt截图

训练一个RNN语言模型

预测的结果和真实的结果，损失函数为交叉熵
在这里插入图片描述
对每一步的交叉熵损失取平均，得到整体损失

但是计算每个单词的损失，计算量很大，提到了随机梯度下降
没学过听不懂之后再补吧qwq

RNN反向传播

推导，chain rule
在这里插入图片描述
反向求导，梯度求和

用RNN生成文本~

评估语言模型

对语料库概率取倒数，T单词数量，1/T进行标准化，不这样做的话，随着语料库的增加，perplexity会越来越小
对perplexity取log再取e,发现了exp(交叉熵),这样一来，在训练语言模型，使交叉熵损失最小化的同时，也使perplexity更小。
而perplexity越小越好，因为它是语料库概率的倒数，我们希望语言模型使这个概率更大，也就是perplexity更小
在这里插入图片描述

为什么关注语言建模

1.语言建模是基准测试任务，帮助我们衡量在语言理解上的发展
2.是很多NLP任务的一部分，尤其涉及到生成文本和估计文本概率的
在这里插入图片描述

简要回顾

RNN不是语言模型，我们用RNN来构建语言模型
在这里插入图片描述

用RNN来做句子分类

可以选择最后一个隐藏状态作为sentence encoding,最后一个隐藏状态在RNN中用来预测下一个单词，设定它包含了之前文本的所有信息
而通常情况下更好更有效的方法是取所有隐藏状态的最大值或均值
在这里插入图片描述

还有其他的应用就不写在这里了，接下来的任务是了解一下双向LSTM然后学习下一课~

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
（2019）CS224N Lecture 6 Language Models and RNNs 笔记 (2)

自用，都是ppt截图训练一个RNN语言模型预测的结果和真实的结果，损失函数为交叉熵对每一步的交叉熵损失取平均，得到整体损失但是计算每个单词的损失，计算量很大，提到了随机梯度下降RNN反向传播推导，chain rule反向求导，梯度求和用RNN生成文本~评估语言模型对语料库概率取倒数，T单词数量，1/T进行标准化，不这样做的话，随着语料库的增加，perplexity...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。