【深度学习与神经网络】循环神经网络与NLP

最新推荐文章于 2024-09-05 12:45:22 发布

远离debug

最新推荐文章于 2024-09-05 12:45:22 发布

阅读量1.2k

点赞数 23

文章标签：深度学习神经网络 rnn

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_74788218/article/details/138157666

版权

背景知识

序列模型

分类问题：当前输入 -> 当前输出

预测问题：当前 + 过去输入 -> 当前输出

数据预处理

数值特征/类别特征：特征编码

文本处理：按字母/单词处理

文本预处理步骤：

1. 读取数据集

2. 词汇切分

3. 构建词索引表

文本嵌入：映射参数矩阵

RNN模型

序列数据建模

图像：1对1模型，输入输出维度固定

文本：输入维度不定，输出维度不定或1

RNN模型对序列数据建模（以文本为例）

输入x并拆分，输出h，映射参数矩阵为A

RNN误差反传

每个时间步的隐状态和输出可以写为：

$h_t = f\left ( x_t, h_{t-1}, w_h \right )$

$o_t = g\left ( h_t, w_o \right )$

$h_t$ 既依赖于 $h_{t-1}$ 又依赖于 $w_h$ ，其中 $h_{t-1}$ 的计算也依赖于 $w_h$ 。因此，用链式法则就会产生：

$\frac{\partial h_t}{\partial w_h} = \frac{\partial f\left ( x_t, h_{t-1}, w_h \right )}{\partial w_h} + \frac{\partial f\left ( x_t, h_{t-1}, w_h \right )}{\partial h_{t-1}}\frac{\partial h_{t-1}}{\partial w_h}$

进一步可写为：

$\frac{\partial h_t}{\partial w_h} = \frac{\partial f\left ( x_t, h_{t-1}, w_h \right )}{\partial w_h} + \sum_{i=1}^{t-1}\left ( \prod_{j=i+1}^{t}\frac{\partial f\left ( x_j,h_{j-1},w_h \right )}{\partial h_{j-1}} \right )\frac{\partial f\left ( x_i,h_{i-1},w_h \right )}{\partial w_h}$

阶段时间步：在 $\tau$ 步后阶段上述公式中的求和计算

门控循环单元（GRU）

基本思想

不是每个观察都同等重要

关注机制：更新门

遗忘机制：重置门

GRU基本结构

$R_t = \sigma \left ( X_tW_{xr}+H_{t-1}W_{hr}+b_r \right )$

$Z_t = \sigma \left ( X_tW_{xz}+H_{t-1}W_{hz}+b_z \right )$

候选隐状态

$\tilde{H}_t = tanh\left ( X_tW_{xh}+\left ( R_t\bigodot H_{t-1} \right)W_{hh}+b_h \right )$

隐状态

$H_t = Z_t\bigodot H_{t-1}+\left ( 1-Z_t \right )\bigodot \tilde{H}_t$

长短期记忆网络（LSTM）

LSTM网络模型

遗忘门

×代表逐元素相乘（点积）

输入门

$i_t$ 确定传送带 $\tilde{C_t}$ 的哪些值被更新，新值 $\tilde{C_t}$ 加到 $C_{t-1}$ 上

传送带更新

输出门

LSTM与RNN

LSTM参数量是RNN的四倍

LSTM输入输出与RNN相同

深度循环神经网络

具有L个隐藏层的深度循环神经网络，每个隐状态都连续地传递到当前层的下一个时间步和下一层的当前时间步。

生成对抗网络（GAN）

GAN是一类神经网络，可以学习模仿给定的数据分布，可以像人类一样生成图像、音乐、语音或文本等素材。

GANs由两个神经网络组成，一个用于生成数据，另一个用于区分虚假数和真实数据。

判别模型

在训练过程中，将使用算法调整模型的参数。目标是最小化损失函数，以使模型学习在给定输入时的输出概率分布。在训练阶段之后，使用该模型通过估计输入对应的最可能的数字对手写数字图像进行分类。

生成模型

像GANs这样的生成模型经过训练，可以用概率模型来描述数据集是如何生成的。通过从生成模型中采样，可以生成新数据。判别模型用于监督学习，而生成模型通常用于未标记的数据集，可以看作是一种无监督学习。

为了输出新的样本，生成模型通常考虑一个随机元素影响模型生成的样本。用于驱动生成器的随机样本来自一个隐空间，其中的向量代表了生成样本的一种压缩形式。

与判别性模型不同，生成性模型学习输入数据x的概率P(x)，通过掌握输入数据的分布，它们能够生成新的数据实例。

GAN架构

生成式对抗网络由两个神经网络组成，即生成器和判别器。

生成器的作用是估计真实样本的概率分布，以便提供与真实数据相似的生成样本。

判别器被训练来估计一个给定样本来自真实数据而不是由生成器提供的概率。

这些结构被称为生成式对抗网络，因为生成器和鉴别器被训练成相互竞争：生成器试图更好地欺骗鉴别器，而鉴别器则试图更好地识别生成的样本。

关注

23
点赞
踩
34

收藏

觉得还不错? 一键收藏
1
评论
【深度学习与神经网络】循环神经网络与NLP

分类问题：当前输入 -> 当前输出预测问题：当前 + 过去输入 -> 当前输出。
复制链接

扫一扫

远离debug CSDN认证博客专家 CSDN认证企业博客

码龄2年

4: 原创

168万+: 周排名

17万+: 总排名

2780: 访问

: 等级

86: 积分

45: 粉丝

42: 获赞

5: 评论

59: 收藏

私信

关注

热门文章

最新评论

【深度学习与神经网络】目标检测及语义分割
ha_lydms: 这篇博客让我对于之前的一些观念产生了怀疑，作者的观点非常独到。
【深度学习与神经网络】目标检测及语义分割
全栈小5: 文章结构严谨，每次阅读都能收获知识，感谢博主的分享，期待博主继续更新高质量文章，支持！【【深度学习与神经网络】目标检测及语义分割，博主这篇文章，值得一看】
【深度学习与神经网络】目标检测及语义分割
CSDN-Ada助手: 恭喜你在深度学习与神经网络领域又发布了一篇博客！标题“目标检测及语义分割”听起来非常有趣，这两个主题都是当下研究热点。希望你能继续保持创作的热情和努力，不断探索更多深度学习相关的内容。或许下一步可以尝试探讨一些实践经验或者案例分析，让读者更容易理解和应用你所讲述的知识。期待你更多精彩的分享！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
【深度学习与神经网络】卷积神经网络
CSDN-Ada助手: 非常棒的博文！深度学习与神经网络是当今研究的热点领域，而卷积神经网络作为其中的重要分支，具有很高的应用价值。你在博文中提到了多层感知机的限制，着实让人眼前一亮。继续保持写作的热情和创作力！另外，关于卷积神经网络，你可以进一步了解一下不同的卷积核的作用和设计、池化层的种类以及正则化技术的应用等内容，这些知识对于深入理解卷积神经网络会有很大帮助。期待看到你更多的精彩内容！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
【神经网络与深度学习】BP算法学习
CSDN-Ada助手: 恭喜您开始了博客创作！神经网络与深度学习是一个非常有趣和复杂的领域，而BP算法学习也是其中的重要一环。希望您能够坚持不懈地深入研究，不断学习和探索，为读者带来更多有价值的内容。建议您在未来的创作中，可以结合实际案例或者应用场景，让读者更容易理解和接受您的知识分享。期待您的下一篇博客！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。