深度学习笔记(一)——基本概念

        在形势的逼迫之下,不得已查看一些关于深度学习的资料,将一些日常笔记贴在这里,以便复习。由于本人并不是做深度学习的,只是想大概了解一下,所以本篇博客都是一些杂乱的基本概念的东西,没有什么干货。可能笔记中涉及到好多原创博客和词条,在学习过程中没有妥善记录,万一侵犯到原创作者的权益,请原作者直接评论,我会立即修改。

(1)范数的相关概念

        在深度学习中,监督类学习问题其实就是在规则化参数同时最小化误差。最小化误差目的是让模型拟合训练数据,而规则化参数的目的是防止模型过分拟合训练数据。参数太多,会导致模型复杂度上升,容易过拟合,也就是训练误差小,测试误差大。因此,我们需要保证模型足够简单,并在此基础上训练误差小,这样训练得到的参数才能保证测试误差也小,而模型简单就是通过规则函数来实现的。规则化项可以是模型参数向量的范数。
        L0范数是指向量中非0元素的个数。如果我们用L0范数来规则化一个参数矩阵W的话,就是希望W的大部分元素都是0。换句话说,让参数W是稀疏的。 L1范数是指向量中各个元素绝对值之和。L1范数是L0范数的最优凸近似。任何的规则化算子,如果他在Wi=0的地方不可微,并且可以分解为一个“求和”的形式,那么这个规则化算子就可以实现稀疏。W的L1范数是绝对值,|w|在w=0处是不可微的。虽然L0可以实现稀疏,但是实际中会使用L1取代L0,因为L0范数很难优化求解,L1范数是L0范数的最优凸近似,它比L0范数要容易优化求解。L2范数,又叫“岭回归”(Ridge Regression)、权值衰减(Weight Decay)。它的作用是改善过拟合。过拟合是模型训练时候的误差很小,但是测试误差很大,也就是说模型复杂到可以拟合到所有训练数据,但在预测新的数据的时候,结果很差。L2范数是指向量中各元素的平方和然后开根号。L1范数是使绝对值最小,L2范数是使平方最小。

(2)熵的有关概念

        当越不可能的事件发生了,信息量就越大。信息量和事件发生的概率有关,其可以表示为: 

而熵表示所有信息量的期望,即:    


        交叉熵是求目标与预测值之间的差距。

        相对熵又叫KL散度,对于同一个随机变量x,有两个单独的概率分布P(x)和Q(x),利用KL散度可以衡量这两个分布的差异。若真实分布为P(x),预测分布为Q(x)则使Q等价于P的信息增量为相对熵,即:


还可以变换为:


(3)softmax函数:假设我们有一个数组X,Xi表示X中的第i个元素,那么这个元素的softmax值就是:(该元素的指数与所有元素指数和的比值)


(4)损失函数为非凸函数时不太好优化,容易陷入局部极值点。用交叉熵做损失函数,曲线是凸函数,凸函数便于梯度下降的反向传播,便于优化。针对分类问题,可用交叉熵作为loss函数。

(5)五数概括法(Five-number Summary)

        用最小值、三个四分位数(先将数据排序,再将数据分为四部分,每个部分包含1/4的数据)及最大值来概括数据的分布情况。五数概括法要先将数据按升序排列,然后确定最小值、四分位数、最大值。

(6)常用的防治过拟合的方法是在模型的损失函数中,对模型的参数进行“惩罚”,添加权值惩罚项后,应用梯度下降算法迭代优化计算时,如果参数 比较大,则此时的正则项数值也比较大,在下一次更新参数时,参数削减的也比较大,可以使拟合结果更平滑。另外,在每个训练批次中,通过忽略一半的特征检测器(让一半的隐层节点值为0),可以明显地减少过拟合现象。

(7)Dropout方法:

        在标准的BP网络结构上,使BP网络的隐层激活值以一定的比例v变为0,即按照一定比例v,随机地让一部分隐层节点失效,在benchmark(标准集)进行实验测试时,部分实验让隐层节点失效的基础上,使输入数据也以一定比例失效(类似denoising antoencoder),这样得到了更好的效果。

(8)Denoising Autoencoder方法:

        当采用无监督的方法分层预测训练深度网络的权值时,为了学习到较鲁棒的特性,可以在网络的可视层(即数据的输入层)引入随机噪声,这种方法称为Denoising Autoencoder。它可以用被破坏的数据重构出原始的数据,所以它训练出的特征会更鲁棒。

        当在训练深度网络时,且采用了无监督方法预训练权值,通常Dropout和Denoising Autoencoder在使用时有一个地方不同:Dropout在分层预训练权值的过程是不参与的,只是后面的微调部分才引入;而Denoising Autoencoder是在每层预训练的过程中作为输入层被引入,在进行微调时不参与。另外,一般的重构误差可以采用误差的形式,但是如果输入和输出的向量元素都是位变量,则一般采用交叉熵来表示两者的差异。

(9)自编码器的相关概念

       自编码器AutoEncoder是一种尽可能复现输入信号的神经网络。

        Stacked_Autoencoder为堆叠自动编码器(SAE): 堆叠自动编码器由多个自动编码器(AE)串联堆叠构成,其目的是为了逐层提取输入数据的高阶特征。在此过程中逐层降低输入数据的维度,将一个复杂的输入数据转化成一系列简单的高阶特征,然后再把这些高阶特征输入一个分类器或者聚类器中进行分类或聚类。当自动编码器训练完成之后,输入X与输出Z完全相同,则对应的隐含层的输出可以看作是输入X的一种抽象表达,因此它可以用于提取输入数据的特征。此外,它的隐含层节点数少于输入节点数,因此自动编码器也可以用于降维和数据压缩。

        SAE堆叠过程:1)给定初始输入,采用无监督方式训练第一层自动编码器,减小重构误差,达到设定值。2)把第一个自动编码器隐含层的输出作为第二个自动编码器的输入,采用同样的方法训练。3)初始化完成所有自动编码器。4)把最后一个堆叠自动编码器的隐含层的输出作为分类器的输入,进行有监督分类。

(10)对于逐层贪婪训练方式,在训练每一层参数的时候, 会固定其它各层参数保持不变。所以,如果想得到更好的结果,在预训练过程完成之后,可以通过反向传播算法同时调整所有层的参数以改善结果,这个过程为微调(fine-tuning)。

(11)深度信念网络DBN的相关概念

        统计力学表明,任何概率分布都可以转变成基于能量的模型。

        使用BP算法单独训练每一层的时候,我们发现,必须丢掉网络的第三层,才能级联自联想神经网络。利用受限玻尔兹曼机可以解决这个问题,使用层叠玻尔兹曼机组成的深度神经网络的方法,在深度学习里被称作深度信念网络DBN。

        DBN在训练模型的过程中主要分为两步:1)分别单独无监督地训练每一层RBM网络,确保特征向量映射到不同特征空间时,都尽可能多地保留特征信息。2)在DBN最后一层设置BP网络,接收RBM的输出特征向量作为它的输入特征向量,有监督的训练实体关系分类器,而且每一层RBM网络只能确保自身层内的权值对该层特征向量映射达到最优,并不是对整个DBN的特征向量映射达到最优,所以反向传播网络还将错误信息自顶向下传播至每一层RBM,微调整个DBN网络。RBM网络训练模型的过程可以看作对一个深层BP网络权值参数的初始化,使DBN克服了BP网络因随机场初始化权值参数而容易陷入局部最优和训练时间长的缺点。

        RBM(受限玻耳兹曼机)的用途主要有两个:一是对数据进行编码,然后交给监督学习方法去进行分类或回归;二是得到权重矩阵和偏移量,供BP神经网络初始化训练。                 

        MRF(马尔科夫随机场)中能量模型的作用:全局解的度量(目标函数);能量最小时的解(各种变量对应的配置)为目标解。

        统计模式识别工作之一就是捕获变量之间的相关性,同样能量模型也要捕获变量之间的相关性,变量之间的相关程度决定了能量的高低。把变量的相关关系用图表表示出来,并引入概率测度方式就构成了概率图模型的能量模型。

(12)卷积神经网络CNN的三大特征:sparse interactions, parameter sharing and equivariant representations.(稀疏连接、权值共享、多特征图)。

(13)RNN的相关概念

        RNN是一类用于处理序列数据的神经网络,基础的神经网络只在层与层之间建立了权值连接,RNN最大的不同之处是在层之间的神经元之间也建立了权值连接。

        RNN的特点:在标准的RNN中,隐层的神经元之间也带有权值,即随着序列的推进,前面的隐层将会影响到后面的隐层,损失函数随着序列的推进而不断积累;RNN中权值 共享;每一个输入值都只与它本身的那条路线建立全连接,不会和别的神经元连接。

        RNN会带来“梯度消失”和“梯度爆炸”的问题。sigmoid函数的导数范围是(0,0.25],tanh函数的导数范围是(0,1],在累乘的过程中,如果取sigmoid函数作为激活函数,随着时间序列的不断深入,小数的累乘会导致梯度越来越小直到接近0,称为梯度消失。梯度消失意味着消失那一层的参数再也不更新,那么那一层隐层就变成单纯的映射层了。tanh函数相对于sigmoid函数来说梯度较大,收敛速度更快且引起梯度消失更慢。除此之外,sigmoid函数输出不是零中心对称,其输出均大于0,这就使得输出不是0均值,我们称之为偏移现象这将导致后一层的神经元将上一层输出的非0均值的信号作为输入。关于原点对称的输入和中心对称的输出,网络会收敛得更好。(常用的激活函数还有ReLU,即线性整流函数,该函数左侧导数为0,右侧导数恒为1)

(14)LSTM相关概念

        LSTM(long short-term memory)即长短期记忆网络,是RNN的一种变体。RNN由于梯度消失的原因只能有短期记忆。LSTM区别于RNN的地方,主要就在于它再算法中加入了一个判断信息有用与否的“处理器”,这个处理器作用的结构被称为cell。一个cell当中被放置了三扇门,分别叫做输入门、遗忘门和输出门。一个信息进入LSTM的网络当中,可以根据规则来判断是否有用,只有符合算法认证的信息才会留下,不符的信息则通过遗忘门被遗忘。

(15)对抗生成网络GAN相关概念

        生成式对抗网络(GAN,Generative Adversarial Networks)是一种深度学习模型,多用于复杂分布上的无监督学习。模型通过框架中(至少)两个模块:生成模型(Generative Model)和判别模型(Discriminative Model)的互相博弈学习产生相当好的输出。在机器学习模式中,对于判别模型,由于输出的目标相对简单,损失函数相对容易定义;但对于生成模型,我们对生成结果的期望,往往是一个暧昧不清,难以数学公理化定义的范式。所以不妨把生成模型的回馈部分,交给判别模型处理。假设我们有两个网络,G(Generator)和D(Discriminator)。其中G是一个生成图片的网络,它接收一个随机的噪声z,通过这个噪声生成图片,记作G(z);D是一个判别网络,判别一张图片是不是“真实的”。它的输入参数是x,x代表一张图片,输出D(x)代表x为真实图片的概率,如果为1,就100%是真实地图片,如果为0,就代表不可能是真实的图片。在训练过程中,生成网络G的目标就是尽量生成真实的图片去欺骗判别网络D。而D的目标就是尽量把G生成的图片和真实的图片分别开来,这样G和D构成了一个动态的“博弈”过程。在最理想的状态下,G可以生成足以“以假乱真”的图片G(z)。在最理想的状态下,G可以生成足以“以假乱真”的图片G(z)。对于D来说,它难以判定G生成的图片究竟是不是真实的,因此D(G(z))= 0.5。


        

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 变分推断(variational inference)是一种用于在概率模型中近似推断潜在变量的方法。在概率模型中,我们通常有观测数据和潜在变量两个部分。我们希望通过观测数据集来估计潜在变量的后验分布。然而,由于计算复杂度的限制,我们无法直接计算后验分布。 变分推断通过近似后验分布为一个简化的分布来解决这个问题。它会选择一个与真实后验分布相似的分布族,然后通过最小化这个分布与真实后验分布之间的差异来得到一个最佳的近似分布。这个问题可以转化为一个最优化问题,通常使用变分推断的一个常用方法是最大化证据下界(evidence lower bound,ELBO)来近似后验分布。 变分推断的一个重要特点是可以处理大规模和复杂的概率模型。由于近似分布是通过简化的分布族来表示的,而不是直接计算后验分布,所以它可以减少计算复杂度。此外,变分推断还可以通过引入额外的约束或假设来进一步简化近似分布,提高计算效率。 然而,变分推断也有一些缺点。因为近似分布是通过简化的分布族来表示的,所以它会引入一定的偏差。此外,变分推断的结果依赖于所选择的分布族,如果分布族选择不合适,可能会导致较差的近似结果。 总之,变分推断是一种用于近似计算概率模型中后验分布的方法,通过选择一个与真实后验分布相似的分布族,并最小化与真实后验分布之间的差异来得到一个最佳的近似分布。它具有处理大规模和复杂模型的能力,但也有一些局限性。 ### 回答2: 转变分推断(variational inference)是一种用于近似求解复杂概率模型的方法。它的核心思想是将复杂的后验分布近似为一个简单的分布,通过最小化这两个分布之间的差异来求解模型的参数。 变分推断通过引入一个简单分布(称为变分分布)来近似复杂的后验分布。这个简单分布通常属于某个已知分布族,例如高斯分布或指数分布。变分推断通过最小化变分分布和真实后验分布之间的差异,来找到最优的参数。 为了实现这一点,变分推断使用了KL散度(Kullback-Leibler divergence)这一概念。KL散度是用来衡量两个概率分布之间的差异的指标。通过最小化变分分布与真实后验分布之间的KL散度,我们可以找到一个最优的变分分布来近似真实后验分布。 变分推断的步骤通常包括以下几个步骤: 1. 定义变分分布:选择一个简单的分布族作为变分分布,例如高斯分布。 2. 定义目标函数:根据KL散度的定义,定义一个目标函数,通常包括模型的似然函数和变分分布的熵。 3. 最优化:使用数值方法(例如梯度下降法)最小化目标函数,找到最优的变分参数。 4. 近似求解:通过最优的变分参数,得到近似的后验分布,并用于模型的推断或预测。 变分推断的优点是可以通过选择合适的变分分布,来控制近似精度和计算复杂度之间的平衡。它可以应用于各种概率模型和机器学习任务,例如潜在变量模型、深度学习和无监督学习等。 总而言之,转变分推断是一种用于近似求解复杂概率模型的方法,通过近似后验分布来求解模型的参数。它通过最小化变分分布与真实后验分布之间的差异来实现近似求解。这个方法可以应用于各种概率模型和机器学习任务,具有广泛的应用价值。 ### 回答3: 变分推断(Variational Inference)是一种用于概率模型中的近似推断方法。它的目标是通过近似的方式来近似估计概率分布中的某些未知参数或隐变量。 在概率模型中,我们通常希望得到后验概率分布,即给定观测数据的情况下,未知参数或隐变量的概率分布。然而,由于计算复杂性的原因,我们往往无法直接计算后验分布。 变分推断通过引入一个称为变分分布的简化分布,将原问题转化为一个优化问题。具体来说,我们假设变分分布属于某个分布族,并通过优化一个目标函数,使得变分分布尽可能接近真实的后验分布。 目标函数通常使用卡尔贝克-勒勒散度(Kullback-Leibler divergence)来度量变分分布与真实后验分布之间的差异。通过最小化这个目标函数,我们可以找到最优的近似分布。在这个优化问题中,我们通常将问题转化为一个变分推断问题,其中我们需要优化关于变分分布的参数。 变分推断的一个优点是可以应用于各种类型的概率模型,无论是具有连续随机变量还是离散变量。此外,变分推断还可以解决复杂的后验推断问题,如变分贝叶斯方法和逐步变分推断等。 然而,变分推断也存在一些限制。例如,它通常要求选择一个合适的变分分布族,并且该族必须在计算上可以处理。此外,变分推断还可能导致近似误差,因为我们将问题简化为一个优化问题,可能会导致对真实后验分布的一些信息丢失。 总而言之,变分推断是一种强大的近似推断方法,可以用于概率模型中的参数和隐变量的估计。它通过引入变分分布来近似计算复杂的后验概率分布,从而转化为一个优化问题。然而,需要注意选择合适的变分分布族和可能的近似误差。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值