lqqqqqc-CSDN博客

原创《动手学——模型微调》笔记

9.2 微调在前面的一些章节中，我们介绍了如何在只有6万张图像的Fashion-MNIST训练数据集上训练模型。我们还描述了学术界当下使用最广泛的大规模图像数据集ImageNet，它有超过1,000万的图像和1,000类的物体。然而，我们平常接触到数据集的规模通常在这两者之间。假设我们想从图像中识别出不同种类的椅子，然后将购买链接推荐给用户。一种可能的方法是先找出100种常见的椅子，为每种椅子...

2020-02-22 16:04:59 244

原创《动手学——数据增强》笔记

图像增广————图像增广目的是为了缓解过拟合。是实现一些相似但不同的样本在5.6节（深度卷积神经网络）里我们提到过，大规模数据集是成功应用深度神经网络的前提。图像增广（image augmentation）技术通过对训练图像做一系列随机改变，来产生相似但又不同的训练样本，从而扩大训练数据集的规模。图像增广的另一种解释是，随机改变训练样本可以降低模型对某些属性的依赖，从而提高模型的泛化能力。...

2020-02-22 14:08:47 321

原创《动手学——梯度下降》笔记

梯度下降一维梯度下降证明：沿梯度反方向移动自变量可以减小函数值泰勒展开：f(x+ϵ)=f(x)+ϵf′(x)+O(ϵ2)f(x+\epsilon)=f(x)+\epsilon f^{\prime}(x)+\mathcal{O}\left(\epsilon^{2}\right)f(x+ϵ)=f(x)+ϵf′(x)+O(ϵ2)代入沿梯度方向的移动量 ηf′(x)\eta f^{\prim...

2020-02-21 17:53:27 1047

原创《动手学——凸优化》笔记

优化与深度学习优化与估计尽管优化方法可以最小化深度学习中的损失函数值，但本质上优化方法达到的目标与深度学习的目标并不相同。优化方法目标：训练集损失函数值深度学习目标：测试集损失函数值（泛化性）优化在深度学习中的挑战局部最小值鞍点梯度消失局部最小值f(x)=xcos⁡πxf(x) = x\cos \pi xf(x)=xcosπx鞍点A=[∂2f∂x12∂2f...

2020-02-20 16:11:58 241

原创《动手学——批量归一化和残差网络》笔记

批量归一化（BatchNormalization）ps 批量归一化本质上是对数据的标准化处理，输入标准化一般用于浅层模型，但是对于深层网络，输入的标准化不够，因为随着模型的迭代更新，依然容易造成靠近输出层，它的数据是剧烈变化的。所以批量归一化的出现是应对深度模型的。对输入的标准化（浅层模型）处理后的任意一个特征在数据集中所有样本上的均值为0、标准差为1。标准化处理输入数据使各个特征的分布相...

2020-02-19 17:26:35 387

原创《动手学——卷积神经网络进阶》笔记

深度卷积神经网络（AlexNet）LeNet: 在大的真实数据集上的表现并不尽如⼈意。1.神经网络计算复杂。2.还没有⼤量深⼊研究参数初始化和⾮凸优化算法等诸多领域。两派特征提取的观点：机器学习的特征提取:手工定义的特征提取函数神经网络的特征提取：通过学习得到数据的多级表征，并逐级表⽰越来越抽象的概念或模式。AlexNet首次证明了学习到的特征可以超越⼿⼯设计的特征，从而⼀举打破...

2020-02-18 16:39:43 259

原创《动手学——LeNet》笔记

Convolutional Neural Networksps 之前图像分类识别的方法：构造一个单隐藏层的多层感知机模型，将28x28的图像展开，形成一个长为724的一维向量，并输入到全连接层。使用全连接层的局限性：图像在同一列邻近的像素在这个向量中可能相距较远。它们构成的模式可能难以被模型识别。对于大尺寸的输入图像，使用全连接层容易导致模型过大。使用卷积层的优势：卷积层保留输入...

2020-02-17 17:32:50 164

原创《动手学——卷积神经网络基础》笔记

二维卷积层本节介绍的是最常见的二维卷积层，常用于处理图像数据。二维互相关运算二维互相关（cross-correlation）运算的输入是一个二维输入数组和一个二维核（kernel）数组，输出也是一个二维数组，其中核数组通常称为卷积核或过滤器（filter）。卷积核的尺寸通常小于输入数组，卷积核在输入数组上滑动，在每个位置上，卷积核与该位置处的输入子数组按元素相乘并求和，得到输出数组中相应位置...

2020-02-17 15:10:05 249

原创《动手学——循环神经网络进阶》笔记

GRU时间步数较大或者较小时，循环神经网络梯度较容易出现梯度衰减/梯度爆炸。虽然裁剪梯度可以应对梯度爆炸，但没法解决梯度衰减问题。所以提出⻔控循环神经⽹络GRU，来捕捉时间序列中时间步距离较⼤的依赖关系RNN存在的问题：梯度较容易出现衰减或爆炸（BPTT）⻔控循环神经⽹络：捕捉时间序列中时间步距离较⼤的依赖关系RNN:Ht=ϕ(XtWxh+Ht−1Whh+bh)H_{t} = ϕ...

2020-02-16 16:34:22 204

原创《动手学——梯度消失、梯度爆炸》笔记

梯度消失和梯度爆炸深度模型有关数值稳定性的典型问题是消失（vanishing）和爆炸（explosion）。当神经网络的层数较多时，模型的数值稳定性容易变差。假设一个层数为LLL的多层感知机的第lll层H(l)\boldsymbol{H}^{(l)}H(l)的权重参数为W(l)\boldsymbol{W}^{(l)}W(l)，输出层H(L)\boldsymbol{H}^{(L)}H(L)的权...

2020-02-15 17:16:02 268

原创《动手学——过拟合、欠拟合及其解决方案》笔记

模型选择、过拟合和欠拟合训练误差和泛化误差在解释上述现象之前，我们需要区分训练误差（training error）和泛化误差（generalization error）。通俗来讲，前者指模型在训练数据集上表现出的误差，后者指模型在任意一个测试数据样本上表现出的误差的期望，并常常通过测试数据集上的误差来近似。计算训练误差和泛化误差可以使用之前介绍过的损失函数，例如线性回归用到的平方损失函数和so...

2020-02-15 15:15:45 105

原创《动手学——循环神经网络基础》笔记

循环神经网络本节介绍循环神经网络，下图展示了如何基于循环神经网络实现语言模型。我们的目的是基于当前的输入与过去的输入序列，预测序列的下一个字符。循环神经网络引入一个隐藏变量HHH，用HtH_{t}Ht表示HHH在时间步ttt的值。HtH_{t}Ht的计算基于XtX_{t}Xt和Ht−1H_{t-1}Ht−1，可以认为HtH_{t}Ht记录了到当前字符为止的序列信息，利用HtH_{t}H...

2020-02-14 18:56:09 189

原创《动手学——语言模型》笔记

语言模型一段自然语言文本可以看作是一个离散时间序列，给定一个长度为TTT的词的序列w1,w2,…,wTw_1, w_2, \ldots, w_Tw1,w2,…,wT，语言模型的目标就是评估该序列是否合理，即计算该序列的概率：P(w1,w2,…,wT).P(w_1, w_2, \ldots, w_T).P(w1,w2,…,wT).本节我们介绍基于统计的语言模型，主要是nnn元语...

2020-02-13 17:40:22 100

原创《动手学——文本预处理》笔记

文本预处理网络只能做数据计算，没法直接作用于文本文本是一类序列数据，一篇文章可以看作是字符或单词的序列，本节将介绍文本数据的常见预处理步骤，预处理通常包括四个步骤：读入文本分词建立字典，将每个词映射到一个唯一的索引（index）将文本从词的序列转换为索引的序列，方便输入模型用现有工具进行分词我们前面介绍的分词方式非常简单，它至少有以下几个缺点:标点符号通常可以提供语义信息，...

2020-02-13 15:48:44 140

原创《动手学——多层感知机》笔记

多层感知机的基本知识深度学习主要关注多层模型。在这里，我们将以多层感知机（multilayer perceptron，MLP）为例，介绍多层神经网络的概念。隐藏层下图展示了一个多层感知机的神经网络图，它含有一个隐藏层，该层中有5个隐藏单元。我们先来看一种含单隐藏层的多层感知机的设计。其输出O∈Rn×q\boldsymbol{O} \in \mathbb{R}^{n \times q}O∈...

2020-02-13 14:10:51 141

原创《动手学——Softmax与分类模型》笔记

softmax的基本概念神经网络图下图用神经网络图描绘了上面的计算。softmax回归同线性回归一样，也是一个单层神经网络。由于每个输出o1,o2,o3o_1, o_2, o_3o1,o2,o3的计算都要依赖于所有的输入x1,x2,x3,x4x_1, x_2, x_3, x_4x1,x2,x3,x4，softmax回归的输出层也是一个全连接层。softmax回归是一个单层...

2020-02-13 13:51:28 151

原创《动手学——线性回归》笔记

线性回归主要内容包括：线性回归的基本要素线性回归模型从零开始的实现线性回归模型使用pytorch的简洁实现线性回归的基本要素优化函数 - 随机梯度下降：优化函数：对参数进行多次迭代，使每次迭代都可能降低损失函数的值（对参数迭代优化等价于使每次迭代后损失函数的值降低）两个步骤：(i)初始化模型参数，一般来说使用随机初始化；(ii)在数据上迭代多次，通过在负梯度方向移动参数来更...

2020-02-12 16:20:32 128

weixin_42314414的博客