CS224N刷题——Assignment2.3_RNN:Language Modeling

最新推荐文章于 2022-05-31 20:15:25 发布

韩明宇

最新推荐文章于 2022-05-31 20:15:25 发布

阅读量209

点赞数

分类专栏： NLP CS224N

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_37098526/article/details/90521346

版权

本文详细介绍了如何计算RNN语言模型的梯度，特别是在语言建模任务中的应用。讨论了困惑度与交叉熵损失的关系，并探讨了完全随机预测时的期望困惑度。此外，还逐步解析了损失函数关于模型参数和隐藏层的梯度，以及在不同时间步的反向传播过程。最后，分析了前向传播和反向传播的时间复杂度，指出慢步骤所在的位置。

摘要由CSDN通过智能技术生成

Assignment #2

3.Recurrent Neural Networks: Language Modeling

在这一节中，计算RNN语言模型的梯度。

语言模型是NLP中的一个核心任务，语言模型也存在于语音识别、机器翻译等许多其他系统的核心部分。给定一个单词（表示为一个one-hot行向量）序列 $x^{(1)},x^{(2)},...,x^{(t)}$ ，语言模型根据下列模型预测下一个单词 $x^{(t+1)}$ ：

$P(x^{(t+1)}=v_{j}|x^{(t)},...,x^{(1)})$

其中 $v_{j}$ 是单词表中的一个单词。

下面计算RNN语言模型的梯度，它使用隐藏层中的反馈信息来模拟“历史” $x^{(t)},x^{(t-1)},...,x^{(1)}$ ，形式化定义如下：

对于 t=1,...,n-1 ：

其中

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。