![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
深度学习
文章平均质量分 94
Andy_shenzl
你看不懂的世界,背后都是原理
展开
-
RNN和LSTM的几个问题探讨
每次提到RNN最先遇到的问题肯定是梯度消失和梯度爆炸,那么什么是梯度消失和梯度爆炸?RNN中为什么会出现这个问题呢?梯度消失和梯度爆炸是深度学习模型,特别是在训练递归神经网络(RNN)和深度前馈神经网络时可能遇到的两个主要问题。这两个问题都源于神经网络中梯度的连乘效应。梯度消失和梯度爆炸是RNN在反向传播过程中常见的问题,RNN的反向传播是通过时间的反向传播”(Backpropagation Through Time,BPTT),其运行流程与一般的反向传播大有不同。在不同类型NLP任务会有不同的输出层结构、原创 2024-03-13 09:18:00 · 1092 阅读 · 1 评论 -
白话transformer(二):Q K V矩阵
前面说了注意力机制的工作原理,本次来看看为了实现自注意力机制,Q K V矩阵是如何实现的。白话transformer(二)原创 2024-03-13 09:17:07 · 2202 阅读 · 0 评论 -
Bert基础(五)--解码器(下)
但在这一层,我们有两个输入矩阵:一个是R(编码器输出的特征值),另一个是M(前一个子层的注意力矩阵)。然后,我们把顶层解码器的输出送入线性层。我们可以看到,每个解码器中的多头注意力层都有两个输入:一个来自带掩码的多头注意力层,另一个是编码器输出的特征值。(3) 然后,将注意力矩阵[插图]和编码器输出的特征值[插图]作为多头注意力层(编码器−解码器注意力层)的输入,并再次输出新的注意力矩阵。(1) 首先,我们将解码器的输入转换为嵌入矩阵,然后将位置编码加入其中,并将其作为输入送入底层的解码器(解码器1)。原创 2024-02-28 10:51:31 · 967 阅读 · 0 评论 -
LSTM原理解析
长短时记忆网络(Long Short-term Memory Network,LSTM),不同于RNN只能记忆短期的记忆 ,LSTM隐含状态是两个状态,短期记忆 和长期记忆原创 2023-02-17 17:02:15 · 1854 阅读 · 0 评论 -
RNN循环神经网络原理理解
RNN之所以称为循环神经网络,即一个序列当前的输出与前面的输出也有关。具体的表现形式为网络会对前面的信息进行记忆并应用于当前的输出计算中,即隐藏层之间的节点不再无连接而是有链接的,并且隐藏层的输入不仅包括输入层的输出还包括上一时刻隐藏层的输出。原创 2023-02-10 15:05:42 · 1399 阅读 · 0 评论 -
RNN学习笔记3-时间序列预测
用LSTM预测时间序列,需要对原始序列做一些简单的处理首先做一个窗口,这个窗口来确定每次需要多少数据进行训练,即xtx_txt的长度,标签的长度也需要确定,本例中我们取的窗口都是一样的,如下:def model_data(seq_size,train_data,test_data): train_x, train_y = [], [] for i in range(len(train_data) - seq_size - 1): train_x.append(np.ex原创 2020-05-19 15:22:10 · 829 阅读 · 0 评论 -
RNN学习笔记3-mnist数据集
在进行代码演练之前,需要先了解下数据集情况我们知道,Mnist数据集是28*28 的图片,所以我们在进行训练的时候,需要进行思维的转换,就是把图片怎么用序列进行训练。对于一张图片,我们把它分成28份,即28个序列,每一行28个像素点为一个序列,即x0x_0x0为图片的第一行,也就是第一个序列,如果我们假定隐藏层为128,那么输出为128*1的向量。根据上一节的LSTM公式 \qquad\;\;输入门:it=σ(Wi⋅[ht−1,xt]+bi)i_t=\sigma(W_i\cdot[h_{t原创 2020-05-14 15:55:14 · 452 阅读 · 0 评论 -
RNN学习笔记3-LSTM
引入LSTM尽管RNN被设计成可以利用历史的信息来辅助当前的决策,但是由于在上节提到的梯度消失或者梯度爆炸问题,RNN主要还是学习短期的依赖关系。所以RNN新的技术挑战就是-长期依赖。长短时记忆网络(Long Short Term Memory Network, LSTM),是一种改进之后的循环神经网络,可以解决RNN无法处理长距离的依赖的问题.LSTM在一个整体的循环网络结构中除了外部的RNN大循环,还要考虑自身单元“细胞”的自循环。传统RNN每个模块内只是一个简单的tanh层,LSTM每个循原创 2020-05-14 11:15:43 · 572 阅读 · 0 评论 -
RNNx学习笔记2-反向传播BPTT
回顾上节的前向传播原创 2020-05-13 10:13:18 · 303 阅读 · 0 评论 -
RNN学习笔记1-前向传播
RNNx^t长方形o^t原创 2020-05-09 18:23:50 · 611 阅读 · 0 评论 -
CNN基础及LeNet5介绍+TF实战
CNN卷积卷积运算特性S(i,j)=(K∗I)(i,j)=∑m∑nI(i+m,j+n)K(m,n)S(i,j)=(K*I)(i,j)=\sum_{m}\sum_{n}I(i+m,j+n)K(m,n)S(i,j)=(K∗I)(i,j)=m∑n∑I(i+m,j+n)K(m,n)稀疏链接–减少权重参数数量– 降低计算复杂度– 过多的链接会导致严重的过拟合,减少链接数可以提升模型...原创 2020-05-08 15:51:55 · 214 阅读 · 0 评论 -
深度学习浅析
目录一、第一阶段1.1、MP模型1.2、感知机二、第二阶段2.1、多层感知机(DNN)2.2、BP神经网络2.3、卷积神经网络(CNN)2.4、循环神经网络(RNN)2.5、长短时记忆网络(LSTM)三、第三阶段3.1、Hopfield网络3.2、玻尔兹曼机3.3、受限玻尔兹曼机深度学习是基于神经网络发展起来的技术,而神经网络的发展具有...原创 2019-03-12 16:14:41 · 430 阅读 · 0 评论