深度学习笔记（一）——基本概念

最新推荐文章于 2024-07-28 15:54:57 发布

氟西汀汀汀不喝奶茶

最新推荐文章于 2024-07-28 15:54:57 发布

阅读量1.4k

点赞数

文章标签： deep learning concepts

本文链接：https://blog.csdn.net/sundreamoon/article/details/80885747

版权

在形势的逼迫之下，不得已查看一些关于深度学习的资料，将一些日常笔记贴在这里，以便复习。由于本人并不是做深度学习的，只是想大概了解一下，所以本篇博客都是一些杂乱的基本概念的东西，没有什么干货。可能笔记中涉及到好多原创博客和词条，在学习过程中没有妥善记录，万一侵犯到原创作者的权益，请原作者直接评论，我会立即修改。

（1）范数的相关概念

在深度学习中，监督类学习问题其实就是在规则化参数同时最小化误差。最小化误差目的是让模型拟合训练数据，而规则化参数的目的是防止模型过分拟合训练数据。参数太多，会导致模型复杂度上升，容易过拟合，也就是训练误差小，测试误差大。因此，我们需要保证模型足够简单，并在此基础上训练误差小，这样训练得到的参数才能保证测试误差也小，而模型简单就是通过规则函数来实现的。规则化项可以是模型参数向量的范数。
L0范数是指向量中非0元素的个数。如果我们用L0范数来规则化一个参数矩阵W的话，就是希望W的大部分元素都是0。换句话说，让参数W是稀疏的。 L1范数是指向量中各个元素绝对值之和。L1范数是L0范数的最优凸近似。任何的规则化算子，如果他在Wi=0的地方不可微，并且可以分解为一个“求和”的形式，那么这个规则化算子就可以实现稀疏。W的L1范数是绝对值，|w|在w=0处是不可微的。虽然L0可以实现稀疏，但是实际中会使用L1取代L0，因为L0范数很难优化求解，L1范数是L0范数的最优凸近似，它比L0范数要容易优化求解。L2范数，又叫“岭回归”（Ridge Regression）、权值衰减（Weight Decay）。它的作用是改善过拟合。过拟合是模型训练时候的误差很小，但是测试误差很大，也就是说模型复杂到可以拟合到所有训练数据，但在预测新的数据的时候，结果很差。L2范数是指向量中各元素的平方和然后开根号。L1范数是使绝对值最小，L2范数是使平方最小。

（2）熵的有关概念

当越不可能的事件发生了，信息量就越大。信息量和事件发生的概率有关，其可以表示为：

而熵表示所有信息量的期望，即：

交叉熵是求目标与预测值之间的差距。

相对熵又叫KL散度，对于同一个随机变量x，有两个单独的概率分布P（x）和Q（x），利用KL散度可以衡量这两个分布的差异。若真实分布为P（x），预测分布为Q（x）则使Q等价于P的信息增量为相对熵，即：

还可以变换为：

（3）softmax函数：假设我们有一个数组X，Xi表示X中的第i个元素，那么这个元素的softmax值就是：（该元素的指数与所有元素指数和的比值）

（4）损失函数为非凸函数时不太好优化，容易陷入局部极值点。用交叉熵做损失函数，曲线是凸函数，凸函数便于梯度下降的反向传播，便于优化。针对分类问题，可用交叉熵作为loss函数。

（5）五数概括法（Five-number Summary）

用最小值、三个四分位数（先将数据排序，再将数据分为四部分，每个部分包含1/4的数据）及最大值来概括数据的分布情况。五数概括法要先将数据按升序排列，然后确定最小值、四分位数、最大值。

（6）常用的防治过拟合的方法是在模型的损失函数中，对模型的参数进行“惩罚”，添加权值惩罚项后，应用梯度下降算法迭代优化计算时，如果参数比较大，则此时的正则项数值也比较大，在下一次更新参数时，参数削减的也比较大，可以使拟合结果更平滑。另外，在每个训练批次中，通过忽略一半的特征检测器（让一半的隐层节点值为0），可以明显地减少过拟合现象。

（7）Dropout方法：

在标准的BP网络结构上，使BP网络的隐层激活值以一定的比例v变为0，即按照一定比例v，随机地让一部分隐层节点失效，在benchmark（标准集）进行实验测试时，部分实验让隐层节点失效的基础上，使输入数据也以一定比例失效（类似denoising antoencoder），这样得到了更好的效果。

（8）Denoising Autoencoder方法：

当采用无监督的方法分层预测训练深度网络的权值时，为了学习到较鲁棒的特性，可以在网络的可视层（即数据的输入层）引入随机噪声，这种方法称为Denoising Autoencoder。它可以用被破坏的数据重构出原始的数据，所以它训练出的特征会更鲁棒。

当在训练深度网络时，且采用了无监督方法预训练权值，通常Dropout和Denoising Autoencoder在使用时有一个地方不同：Dropout在分层预训练权值的过程是不参与的，只是后面的微调部分才引入；而Denoising Autoencoder是在每层预训练的过程中作为输入层被引入，在进行微调时不参与。另外，一般的重构误差可以采用误差的形式，但是如果输入和输出的向量元素都是位变量，则一般采用交叉熵来表示两者的差异。

（9）自编码器的相关概念

自编码器AutoEncoder是一种尽可能复现输入信号的神经网络。

Stacked_Autoencoder为堆叠自动编码器（SAE）：堆叠自动编码器由多个自动编码器（AE）串联堆叠构成，其目的是为了逐层提取输入数据的高阶特征。在此过程中逐层降低输入数据的维度，将一个复杂的输入数据转化成一系列简单的高阶特征，然后再把这些高阶特征输入一个分类器或者聚类器中进行分类或聚类。当自动编码器训练完成之后，输入X与输出Z完全相同，则对应的隐含层的输出可以看作是输入X的一种抽象表达，因此它可以用于提取输入数据的特征。此外，它的隐含层节点数少于输入节点数，因此自动编码器也可以用于降维和数据压缩。

SAE堆叠过程：1）给定初始输入，采用无监督方式训练第一层自动编码器，减小重构误差，达到设定值。2）把第一个自动编码器隐含层的输出作为第二个自动编码器的输入，采用同样的方法训练。3）初始化完成所有自动编码器。4）把最后一个堆叠自动编码器的隐含层的输出作为分类器的输入，进行有监督分类。

（10）对于逐层贪婪训练方式，在训练每一层参数的时候，会固定其它各层参数保持不变。所以，如果想得到更好的结果，在预训练过程完成之后，可以通过反向传播算法同时调整所有层的参数以改善结果，这个过程为微调（fine-tuning）。

（11）深度信念网络DBN的相关概念

统计力学表明，任何概率分布都可以转变成基于能量的模型。

使用BP算法单独训练每一层的时候，我们发现，必须丢掉网络的第三层，才能级联自联想神经网络。利用受限玻尔兹曼机可以解决这个问题，使用层叠玻尔兹曼机组成的深度神经网络的方法，在深度学习里被称作深度信念网络DBN。

DBN在训练模型的过程中主要分为两步：1）分别单独无监督地训练每一层RBM网络，确保特征向量映射到不同特征空间时，都尽可能多地保留特征信息。2）在DBN最后一层设置BP网络，接收RBM的输出特征向量作为它的输入特征向量，有监督的训练实体关系分类器，而且每一层RBM网络只能确保自身层内的权值对该层特征向量映射达到最优，并不是对整个DBN的特征向量映射达到最优，所以反向传播网络还将错误信息自顶向下传播至每一层RBM，微调整个DBN网络。RBM网络训练模型的过程可以看作对一个深层BP网络权值参数的初始化，使DBN克服了BP网络因随机场初始化权值参数而容易陷入局部最优和训练时间长的缺点。

RBM（受限玻耳兹曼机）的用途主要有两个：一是对数据进行编码，然后交给监督学习方法去进行分类或回归；二是得到权重矩阵和偏移量，供BP神经网络初始化训练。

MRF（马尔科夫随机场）中能量模型的作用：全局解的度量（目标函数）；能量最小时的解（各种变量对应的配置）为目标解。

统计模式识别工作之一就是捕获变量之间的相关性，同样能量模型也要捕获变量之间的相关性，变量之间的相关程度决定了能量的高低。把变量的相关关系用图表表示出来，并引入概率测度方式就构成了概率图模型的能量模型。

（12）卷积神经网络CNN的三大特征：sparse interactions, parameter sharing and equivariant representations.（稀疏连接、权值共享、多特征图）。

（13）RNN的相关概念

RNN是一类用于处理序列数据的神经网络，基础的神经网络只在层与层之间建立了权值连接，RNN最大的不同之处是在层之间的神经元之间也建立了权值连接。

RNN的特点：在标准的RNN中，隐层的神经元之间也带有权值，即随着序列的推进，前面的隐层将会影响到后面的隐层，损失函数随着序列的推进而不断积累；RNN中权值共享；每一个输入值都只与它本身的那条路线建立全连接，不会和别的神经元连接。

RNN会带来“梯度消失”和“梯度爆炸”的问题。sigmoid函数的导数范围是(0,0.25]，tanh函数的导数范围是（0，1]，在累乘的过程中，如果取sigmoid函数作为激活函数，随着时间序列的不断深入，小数的累乘会导致梯度越来越小直到接近0，称为梯度消失。梯度消失意味着消失那一层的参数再也不更新，那么那一层隐层就变成单纯的映射层了。tanh函数相对于sigmoid函数来说梯度较大，收敛速度更快且引起梯度消失更慢。除此之外，sigmoid函数输出不是零中心对称，其输出均大于0，这就使得输出不是0均值，我们称之为偏移现象这将导致后一层的神经元将上一层输出的非0均值的信号作为输入。关于原点对称的输入和中心对称的输出，网络会收敛得更好。（常用的激活函数还有ReLU，即线性整流函数，该函数左侧导数为0，右侧导数恒为1）

（14）LSTM相关概念

LSTM（long short-term memory）即长短期记忆网络，是RNN的一种变体。RNN由于梯度消失的原因只能有短期记忆。LSTM区别于RNN的地方，主要就在于它再算法中加入了一个判断信息有用与否的“处理器”，这个处理器作用的结构被称为cell。一个cell当中被放置了三扇门，分别叫做输入门、遗忘门和输出门。一个信息进入LSTM的网络当中，可以根据规则来判断是否有用，只有符合算法认证的信息才会留下，不符的信息则通过遗忘门被遗忘。

（15）对抗生成网络GAN相关概念

生成式对抗网络（GAN，Generative Adversarial Networks）是一种深度学习模型，多用于复杂分布上的无监督学习。模型通过框架中（至少）两个模块：生成模型（Generative Model）和判别模型（Discriminative Model）的互相博弈学习产生相当好的输出。在机器学习模式中，对于判别模型，由于输出的目标相对简单，损失函数相对容易定义；但对于生成模型，我们对生成结果的期望，往往是一个暧昧不清，难以数学公理化定义的范式。所以不妨把生成模型的回馈部分，交给判别模型处理。假设我们有两个网络，G（Generator）和D（Discriminator）。其中G是一个生成图片的网络，它接收一个随机的噪声z，通过这个噪声生成图片，记作G（z）；D是一个判别网络，判别一张图片是不是“真实的”。它的输入参数是x，x代表一张图片，输出D（x）代表x为真实图片的概率，如果为1，就100%是真实地图片，如果为0，就代表不可能是真实的图片。在训练过程中，生成网络G的目标就是尽量生成真实的图片去欺骗判别网络D。而D的目标就是尽量把G生成的图片和真实的图片分别开来，这样G和D构成了一个动态的“博弈”过程。在最理想的状态下，G可以生成足以“以假乱真”的图片G（z）。在最理想的状态下，G可以生成足以“以假乱真”的图片G（z）。对于D来说，它难以判定G生成的图片究竟是不是真实的，因此D（G（z））= 0.5。