神经网络与深度学习_哈工大课堂笔记4

神效小太阳

于 2024-04-25 17:44:29 发布

阅读量552

点赞数 17

文章标签：深度学习神经网络笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_52498551/article/details/137552906

版权

本文介绍了序列数据的特点，特别是如何通过循环神经网络（RNN）处理，包括其工作原理和自回归模型的应用。着重探讨了LSTM如何改进RNN结构，以解决长期依赖问题，涉及遗忘门、输入门和输出门的机制。同时涵盖了文本预处理步骤，如词表构建和数字化过程。

摘要由CSDN通过智能技术生成

序列数据是指数据列中的数据有固定的顺序特征，比如文章中的单词是按顺序写的，如果顺序被随机地重排，就很难理解文章原始的意思。同样，视频中的图像帧、对话中的音频信号以及网站上
的浏览行为都是有顺序的。

简言之，如果说卷积神经网络可以有效地处理空间信息，那么本章的循环神经网络（recurrent neural network，RNN）则可以更好地处理序列信息。循环神经网络通过引入状态变量存储过去的信息和当前的输入，从而可以确定当前的输出。

自回归模型

想要预测 $t$ 时刻的变量值，可以参考变量之前的数据取值，且此预测值有一定概率。当时间越来越长，过去的数据越来越多，预测将变麻烦。设计一个新的变量，用来存储冗长的历史数据集，使得当前预测变量 $x_t$ 仅和当前时刻的新变量有关，且此新变量又由上一时刻变量值 $x_{t-1}$ 和上一时刻新变量值有关，这就引出了隐变量自回归模型。 $h$ 就是前文所说的新变量。

此模型的数学公式是

$\hat{x}_t=P(x_t|h_t)$

$h_t=g(h_{t-1},x_{t-1})$

文本预处理

1. 将文本作为字符串加载到内存中
2. 将字符串拆分为词元（如单词和字符）

给定文本片段，如:
S = "... or not to be to be ..."

按单词处理的结果是

L = [...,to, be, or, not, to, be, ...]

按字符处理的结果

L = [..., 't', 'o', ' ',‘b,‘e’, ...]

3. 建立一个词表，将拆分的词元映射到数字索引

词元的类型是字符串，而模型需要的输入是数字，因此这种类型不方便模型使用。构建词表将字符串类型的词元映射到从0开始的数字索引中，可以解决这种现象，具体如下：

1）对文档的唯一词元进行统计，统计结果也称之为语料。唯一词元即将文段拆分成词元后，对重复词元进行剔除得到的结果。

2）根据每个唯一词元的出现频率，为其分配一个数字索引。一般采取，频率越高，序号越小的原则。很少出现的词元通常被移除，这可以降低复杂性。语料库中不存在或已删除的任何词元都将映射到一个特定的未知词元“<unk>”。

4. 将文本转换为数字索引序列，方便模型操作。

有隐状态的循环神经网络（RNN）

我们的目标是根据过去的和当前的词元预测下一个词元，基于自回归模型构造循环神经网络，结构如下

正向传播

在任意时间步 $t$ 的时候，隐藏层加权的数据是输入 $x_t$ 和隐状态上一时刻的值 $H_{t-1}$ ，经过一层网络得到隐状态这一时刻的值 $H_{t}$ ，公式如下：

$H_t=\phi (X_tW_{xh}+H_{t-1}W_{hh}+b_h)$

注意，这里激活函数使用的是 $tanh$

同时，可得到当前时间步上的输出 $o_{t}$

$O_t=H_tW_{hq}+b_q$

反向梯度传播

此RNN网络的目标函数取为网络输出值 $O_t$ 和对应标签值 $y_t$ 之间的误差，和神经网络的不同之处在于：这里误差累加公式的变量是一段时间的每个时间步，公式如下

按照链式求导法则，梯度公式如下

可看到，隐状态 $h_t$ 关于网络隐藏层权重的导数，会受到隐状态过去时间步取值的影响

随着考察时间段变长，将导致梯度公式乘积项过多，导致“梯度消失”的问题

最简单的解决方法就是，我们“截断”时间步，即可以在𝜏步后截断上页式中的求和计算

长短期记忆网络（LSTM）

可以说，这款网络是基于RNN修改了网络结构，以应对隐变量模型存在着长期信息保存和短期输入缺失的问题。

先给出LSTM种基础模块的数据流图示

遗忘门、输入门和输出门

输入数据：当前时间步的输入，前一个时间步的隐状态

三个具有sigmoid激活函数的全连接层处理，以计算输入门、遗忘门和输出门的值

候选记忆门

它和上面三个门类似，区别在使用tanh激活函数

记忆元

输入门 $I_t$ 控制采用多少来自 $\tilde{C}_t$ 的新数据，而遗忘门 $F_t$ 控制保留多少过去的记忆元 $C_{t-1}$ $\in$ $R^{n\times h}$ 的内容。使用按元素乘法，得出当前时刻的记忆 $C_{t}$ ：

隐状态

可发现，隐状态仅仅是记忆元的tanh的门控版本。只要输出门接近1，我们就能够有效地将所有记忆信息传递给预测部分，而对于输出门接近0，我们只保留记忆元内的所有信息，而不需要更新隐状态。

神效小太阳

关注

17
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
神经网络与深度学习_哈工大课堂笔记4

序列数据是指数据列中的数据有固定的顺序特征，比如文章中的单词是按顺序写的，如果顺序被随机地重排，就很难理解文章原始的意思。同样，视频中的图像帧、对话中的音频信号以及网站上的浏览行为都是有顺序的。简言之，如果说卷积神经网络可以有效地处理空间信息，那么本章的循环神经网络（recurrent neural network，RNN）则可以更好地处理序列信息。循环神经网络通过引入状态变量存储过去的信息和当前的输入，从而可以确定当前的输出。
复制链接

扫一扫

神效小太阳 CSDN认证博客专家 CSDN认证企业博客

码龄4年

4: 原创

67万+: 周排名

17万+: 总排名

2801: 访问

: 等级

109: 积分

48: 粉丝

69: 获赞

1: 评论

83: 收藏

私信

关注

热门文章

最新评论

神经网络与深度学习_哈工大课堂笔记4
CSDN-Ada助手: 恭喜您写了第四篇博客！看到您分享关于神经网络与深度学习的课堂笔记，让人受益匪浅。希望您能继续保持创作的热情，坚持分享知识和经验。或许在下一篇博客中，可以加入一些实际案例或者应用场景的分析，让读者更加深入地理解和应用所学知识。期待您的下一篇作品！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
神经网络与深度学习_哈工大课堂笔记2
CSDN-Ada助手: 这是一篇非常详细且深入的博文，对神经网络与深度学习的理解有了更加深入的认识。希望作者能继续分享更多关于这方面的知识和心得体会。在深入学习神经网络的过程中，除了深度学习的理论知识外，也可以尝试实践一些相关的项目，如图像识别、自然语言处理等，以提升自己的实际操作能力。另外，了解一些常用的深度学习框架，如TensorFlow、PyTorch等，也可以帮助更好地应用所学知识。希望作者在接下来的学习和写作中不断进步，为自己的学习之路添砖加瓦。如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。