《动手学深度学习》学习笔记
文章平均质量分 86
沐神《动手学深度学习》学习笔记
Jiawen9
从来不自诩有不带偏见看待事物的所谓眼界和宽容,但会一直坚守接触之后能重新认识人和事物的勇气。
展开
-
《动手学深度学习》-57长短期记忆网络LSTM
长期以来,隐变量模型存在长期信息保存和短期输入缺失的问题。解决这一问题的最早方法之一是长短期记忆网络。原创 2023-08-30 22:40:44 · 176 阅读 · 0 评论 -
《动手学深度学习》-55循环神经网络
简单来说循环神经网络RNN就是在MLP中加了一项,使它可以与前一个时间的h_{t-1}发生关系。时序信息存储在W_{hh}。原创 2023-08-30 12:08:38 · 137 阅读 · 0 评论 -
《动手学深度学习》-28批量归一化
批量归一化是一个线性变换,目的就是将方差和均值拉的比较好,使得变化不那么剧烈。对全连接层,对于每一个特征做一个标量的均值,标量的方差,区别在于不是仅仅对数据做操作,而是对参数也作用。对卷积层,作用在通道层,卷积的多通道相当于像素的特征。原创 2023-08-24 09:08:03 · 128 阅读 · 0 评论 -
《动手学深度学习》-21卷积层里的多输入多输出通道
输出通道数是卷积层的超参数。每个输入通道有独立的二维卷积核,所有通道结果相加得到一个输出通道结果。每个输出通道有独立的三维卷积核。原创 2023-08-23 17:41:08 · 159 阅读 · 0 评论 -
《动手学深度学习》-20卷积层里的填充和步幅
填充是想把模型做深时所用的办法,步幅可以成倍的减小输出形状。原创 2023-08-23 16:26:47 · 159 阅读 · 0 评论 -
《动手学深度学习》-19卷积层
按照MLP的思想要为每一个卷积核大小的像素区域分配一个卷积核,而添加平移不变性和局部性,使得卷积核可以进行移动(模式/识别器不变),同时降低了参数量。原创 2023-08-23 15:35:37 · 140 阅读 · 0 评论 -
《动手学深度学习》-68Transformer
Transformer:缩放点积注意力是没有学习参数的,所以先把V、K、Q投影到线性层,在经过多个注意力计算,最后再拼接在一起做一次投影,总的来说效果上比较像卷积的多通道。Transformer选择8个头,每个头投影到512/8=64维度上。原创 2023-08-15 20:22:36 · 176 阅读 · 0 评论 -
《动手学深度学习》-67自注意力
在深度学习中,经常使用卷积神经网络(CNN)或循环神经网络(RNN)对序列进行编码。有了注意力机制之后,我们将词元序列输入注意力汇聚中,以便同一组次元同时充当查询、键和值。由于查询、键和值来自于同一组输入,因此被称为**自注意力**(`self-attention`)。原创 2023-08-04 19:01:27 · 161 阅读 · 0 评论 -
《动手学深度学习》-65注意力分数
高斯核中的指数部分可以视为注意力评分函数(attention scoring function),简称评分函数,然后把这个函数的输出结果输入softmax函数中进行运算,将得到与键对应的值的概率分布(即注意力权重)。最后注意力汇聚的输出就是基于这些注意力权重的值的加权和。原创 2023-08-03 23:59:56 · 138 阅读 · 0 评论 -
《动手学深度学习》-64注意力机制
因此“是否包含自主性提示”将注意力机制与全连接层或汇聚层区分开来。在注意力机制的背景下,自主性提示被称为**查询**(`query`)。给定任何查询,注意力机制通过**注意力汇聚**(`attention pooling`)将选择引导至**感官输入**(`sensory input`),例如中间特征表示。在注意力机制中,这些感官输入被称为**值**(`value`)。更通俗的讲,每个值都与一个**键**(`key`)匹配,这可以想象为感官输入的非自主性提示。原创 2023-08-03 17:08:13 · 194 阅读 · 0 评论