递归神经网络_RNN、LSTM、Word2Vec

最新推荐文章于 2024-05-27 20:44:31 发布

hellobigorange

最新推荐文章于 2024-05-27 20:44:31 发布

阅读量629

点赞数 2

分类专栏：机器学习和深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_34229228/article/details/105626603

版权

机器学习和深度学习专栏收录该内容

41 篇文章 11 订阅

订阅专栏

一、RNN原理

RNN的目的使用来处理序列数据。在传统的神经网络模型中，是从输入层到隐含层再到输出层，层与层之间是全连接的。
序列数据往往前后时刻是相关的，因此用RNN。
在这里插入图片描述
RNN特点
1、权值共享，图中的W全是相同的，U和V也一样。
2、每一个输入值都只与它本身的那条路线建立权连接，不会和别的神经元连接。

前向传播
$s_t=tanh(Ws_{t-1}+Ux_t)$
$\widehat{y}_t=o_t=Softmax(Vs_t)$
交叉熵损失函数：
反向传播

应用
在这里插入图片描述
多层网络、双向网络结构

RNN缺点
容易出现梯度消失或者梯度爆炸的问题(BP算法和长时间依赖造成的). 注意: 这里的梯度消失（U的特征值小于1，反向传播 $U^{n-k}$ 会越来越小）和BP的不一样,这里主要指由于时间过长而造成记忆值较小的现象.
在这里插入图片描述

二、LSTM

LSTM（long short-term memory）。长短期记忆网络是RNN的一种变体，RNN由于梯度消失的原因只能有短期记忆（如下图），LSTM网络通过精妙的门控制将加法运算带入网络中，一定程度上解决了梯度消失的问题。
在这里插入图片描述

总结

LSTM变种

1）、Peephole connection
2）、耦合忘记门
3）、GRU
它将忘记门和输入门合并成为一个单一的更新门, 同时合并了数据单元状态和隐藏状态, 使得模型结构比之于LSTM更为简单.

三、Word2Vec

word2vec也叫word embeddings，中文名“词向量”，作用就是将自然语言中的字词转为计算机可以理解的稠密向量
在这里插入图片描述
总结

Word2Vec特点

编辑：从损失函数的角度看word2vec
word2vec模型深度解析

在这里插入图片描述

四、LSTM示例

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
打赏
0
评论
递归神经网络_RNN、LSTM、Word2Vec

一、RNN原理RNN的目的使用来处理序列数据。在传统的神经网络模型中，是从输入层到隐含层再到输出层，层与层之间是全连接的。序列数据往往前后时刻是相关的，因此用RNN。RNN特点1、权值共享，图中的W全是相同的，U和V也一样。2、每一个输入值都只与它本身的那条路线建立权连接，不会和别的神经元连接。前向传播st=tanh(Wst−1+Uxt)s_t=tanh(Ws_{t-1}+U...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

hellobigorange 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。