深度学习
文章平均质量分 89
饮尽夏日
这个作者很懒,什么都没留下…
展开
-
Transformer
Transformer不仅很强大,而且允许扩展到更大的尺寸。它之所以如此强大,是因为它抛弃了之前广泛采用的循环网络和卷积网络,而采用了一种特殊的结构----注意力机制来建模文本。它是一个利用注意力机制来提高模型训练速度的模型。原创 2023-11-22 10:00:39 · 36 阅读 · 0 评论 -
seq2seq(DPL)
Seq2Seq其实就是Encoder-Decoder结构的网络,它的输入是一个序列,输出也是一个序列。在Encoder中,将序列转换成一个固定长度的向量,然后通过Decoder将该向量转换成我们想要的序列输出出来。在基础的模型中,Decoder的每一次解码又会作为下一次解码的输入,这样就会导致一个问题就是错误累计,如果其中一个RNN单元解码出现误差了,那么这个误差就会传递到下一个RNN单元,使训练结果误差越来越大。Encoder和Decoder一般都是RNN,通常为LSTM或者GRU。原创 2023-11-22 08:13:03 · 50 阅读 · 0 评论 -
word2vec
词向量有时被称为词嵌入或词表示。稠密词向量是分布式表示。基于海量文本语料库构建固定词汇表中的每个单词都由一个向量表示文本中的每个位置t,其中有一个中心词c和上下文(“外部”)单词o使用c和o的词向量来计算概率P(o|c),即给定中心词推断上下文词汇的概率。(反之亦然)不断调整词向量来最大化这个概率。举例:下图窗口大小为j2j=2j2时的Pwtj∣wtPwtj∣wt,它的中心词为into。Word2vec目标函数。原创 2023-11-21 21:05:45 · 30 阅读 · 0 评论 -
GRU(门控循环单元)
(使用sigmoid函数可以将数据变换为0-1范围内的数值,从而充当门控信号。是上一个节点传递下来的隐状态,这个隐状态包含了之前节点的相关信息;的值在0到1的范围内,且大多数时间非常接近于0或1。GRU实验效果与LSTM相似,但是更易于计算。为控制更新的门控(update gate)。控制重置的门控(reset gate),GRU通过输入来获取两个门控状态。当使用sigmoid作为激活函数。为传递给下一个节点的隐状态。为当前隐藏节点的输出,原创 2023-11-21 09:29:32 · 265 阅读 · 0 评论 -
RNN(循环神经网络)
这些问题的一种解决方案就是减少神经网络中隐藏层的数量,以便消除循环神经网络 (RNN) 模型中的一些复杂性。自然语言(文本)和音频都是时序前后相互关联的数据,对于这些序列数据我们会使用RNN来进行处理。它们的输入和输出的长度可变,不同类型的循环神经网络 (RNN) 有着不同的用例,例如音乐生成、观点分类和机器翻译。因为损失函数本身计算依赖时序上每个时间点,RNN的反向传播也被称为沿着时间的反向传播。RNN常用的激活函数:tanh函数,sigmoid函数,ReLU函数等。会传入到第t+1个元素中,作为输入。原创 2023-11-20 21:39:27 · 59 阅读 · 1 评论 -
优化算法-dp
优化算法使我们能够继续更新模型参数,并使损失函数的值最小化。深度学习中出现的几乎所有优化问题都是非凸的。原创 2023-11-19 08:35:48 · 32 阅读 · 0 评论 -
LSTM(长短期记忆)
因为sigmoid 函数会将任意输入压缩到 (0 , 1)的区间上,如果整合后的向量某个分量在通过sigmoid层后变为0,那么显然单元状态在对位相乘后对应的分量也会变成0,换句话说,“遗忘”了这个分量上的信息;每一次输入一个新的输入,LSTM会先根据新的输入和上一时刻的输出决定遗忘掉之前的哪些记忆——输入和上一步的输出会整合为一个单独的向量,然后通过sigmoid神经层,最后点对点的乘在单元状态上。时刻的输出信息,我们可以看到神经元A会递归的调用自身并且将 t - 1 时刻的信息传递给。原创 2023-11-14 21:58:55 · 91 阅读 · 0 评论 -
CNN(卷积神经网络)
featuremap为28*28*6,卷积参数大小为(5*5*1)*6。其中28*28是featuremap的高度,宽度,6是featuremap的通道数。(5*5*1)*6卷积核表示5*5的高度,宽度,通道数为1的卷积核有6个。原创 2023-11-13 21:22:42 · 262 阅读 · 0 评论 -
注意力机制
Transformer解码器也是由多个相同的层叠加而成的,并且层中使用了残差连接和层规范化。除了编码器中描述的两个子层之外,解码器还在这两个子层之间插入了第三个子层,称为编码器-解码器注意力(encoder-decoder attention)层。基于位置的前馈网络对序列中的所有位置的表示进行变换时使用的是同一个多层感知机(MLP),这就是称前馈网络是基于位置的(positionwise)的原因。从宏观角度来看,Transformer的编码器是由多个相同的层叠加而成的,每个层都有两个子层。原创 2023-11-06 18:50:30 · 39 阅读 · 0 评论 -
现代循环神经网络
其主要原因是网络的前向传播需要在双向层中进行前向和后向递归, 并且网络的反向传播还依赖于前向传播的结果。因此,梯度求解将有一个非常长的链。但是在对下一个词元进行预测的情况中,这样的模型并不是我们所需的。因为在预测下一个词元时,我们终究无法知道下一个词元的下文是什么, 所以将不会得到很好的精度。它们由三个具有sigmoid激活函数的全连接层处理, 以计算输入门、遗忘门和输出门的值。因此,这三个门的值都在(0, 1)的范围内。当前时间步的输入和前一个时间步的隐状态作为数据送入长短期记忆网络的门中。原创 2023-11-06 09:33:41 · 33 阅读 · 0 评论 -
循环神经网络
如果说卷积神经网络可以有效地处理空间信息, 那么循环神经网络(recurrent neural network,RNN)则可以更好地处理序列信息。在给定这样的文本序列时,语言模型(language model)的目标是估计序列的联合概率。马尔可夫模型:类似自回归模型的近似法,只要是这种近似精确的,我们就说序列满足马尔可夫条件(Markov condition)。另一个方法是用零填充序列。循环神经网络通过引入状态变量存储过去的信息和当前的输入,从而可以确定当前的输出。假设长度为T的文本序列中的词元依次为。原创 2023-11-05 11:50:55 · 42 阅读 · 0 评论 -
卷积神经网络
由于我们通常使用小卷积核,因此对于任何单个卷积,我们可能只会丢失几个像素。解决这个问题的简单方法即为填充(padding):在输入图像的边界填充元素(通常填充元素是0)。在计算互相关时,卷积窗口从输入张量的左上角开始,向下、向右滑动。在处理多通道输入数据时,汇聚层在每个输入通道上单独运算,而不是像卷积层一样在通道上对输入进行汇总。当我们添加通道时,我们的输入和隐藏的表示都变成了三维张量。列填充(左侧大约一半,右侧一半),则输出形状将为。卷积的输出形状取决于输入形状和卷积核的形状。同理,我们填充宽度的两侧。原创 2023-11-01 20:48:06 · 58 阅读 · 0 评论 -
深度学习计算
自定义块每个块必须提供的基本功能:顺序块小结参数访问:参数初始化参数绑定延后初始化小结原创 2023-10-31 13:50:20 · 35 阅读 · 1 评论 -
多层感知机
泛化性和灵活性之间的这种基本权衡被描述为偏差-方差权衡(bias-variance tradeoff)。原创 2023-10-31 09:07:45 · 39 阅读 · 1 评论