GAN学习笔记1

1、CGAN:(是条件GAN吗?)条件GAN根据某种特定风格或条件来制作图像。

CycleGAN:完成图像的跨域转换(苹果变成橘子);

BEGAN:网络固化,避免模型坍塌。

层叠GAN技术将从文本生成图像的问题拆分成两个可控的子问题,并利用StackGAN进行处理。

DiscoGAN进行图像风格的跨域转换。

DeepDream和VAE等其他生成模型来生成图像和风格转换。

2、深度学习中,计算在每个节点处进行,每个节点会将输入以及一系列的参数和权重进行计算,将输入进行增强或抑制。这些输入-权重组合的结果将会被汇总,他们的总和将会被传入一个激活函数。通过这个激活函数来确认这个汇总值该如何在整个网络中进行传递,以及会对最终结果产生怎样的影响。

3、SIGMOD激活函数:

在神经网络中产生(0,1)之间的结果。当输入数据x在特定范围内时,SIGMOD函数在梯度下降过程中表现十分优异。但是对于x很大而y为常数的情况,由于dy/dx(梯度)始终为0,因此会出现梯度消失的问题。由于梯度为0,因此将梯度和损失相乘的值依旧为0,这最终导致神经网络停止学习。

4、修正线性单元(ReLU):

计算公式为f(x)=max(0,x)。ReLU的这种更新权重的方法导致他在训练过程中十分脆弱,一些神经元可能在任何数据上都不会被再次激活了,从这个单元点经过的梯度,从某个数据点之后就会是一直是0。【是0意味着不被激活了。】

为了解决ReLU的这个问题,Leaky ReLU在x<0时,会有一个极小的斜率a(0.01左右)而不是当x<0时直接取0:

f(x)={ax,x<=0;x,x>0

5、指数线性单元(ELU):

ReLU激活的平均值不是0,这会导致网络学习过程中遇到困难。指数线性单元在x为正数时的表现与ReLU相同,当x为负数且a=1(超参数a控制输入为负数时的ELU的取值范围)时将结果的下界限制为-1.这个特性使得激活函数的平均值趋向于0,这可以使得网络更加健壮,能够更好地应对噪声。

6、随机梯度下降

由于梯度下降需要迭代的执行很多次,这就意味着在每一次迭代中即使只是更新一个参数,我们也需要在所有数据集上进行计算,然后在所有数据集上将这个过程迭代几十或上百次。

随机梯度下降法:每次迭代只在整个数据集中随机选取一部分来计算平均损失。

AdaGrad对SGD进行了简化,可以隐式的对动量、学习率、衰变等参数进行调节。通过AdaGrad可以使得学习过程对超参数的调节不那么敏感,但是他的训练效果通常比精心调优过的SGD效果要差一些。

AdaGrad是解决不同参数应该使用不同的更新速率的问题,AdaGrad是自适应地为各个参数分配不同学习率的算法。

在简书上找到了一个比较简洁的介绍AdaGrad的文章。分享https://www.jianshu.com/p/a8637d1bb3fc

7、学习率:当训练过程变得困难时,需要记住一个关键就是降低学习速率。学习速率代表每一步移动的步长。通常,降低学习率能够以更短的时间生成一个效果更好的模型。

8、正则化:避免过拟合。ps:感谢博主https://blog.csdn.net/speargod/article/details/80233619的分享。

避免过拟合的方法之一是:观察模型在验证数据集上的性能指标,当性能指标不再提升时就停止训练,这种方法称为提前结束。

另一种避免过拟合的方法就是:正则化。正则化意味着需要在网络中加入一些人工约束的条件来隐式的降低自由参数的数量,同时使得优化过程不会变的太困难。

L2正则化,通过给损失加入另外一个参数来惩罚那些数值大的权重。

函数越简单,越不容易发生过拟合。因此,惩罚高阶参数,使他们趋近于0,这样就得到了较为简单的假设,也就是简单的函数,这样就不容易发生过拟合。但在实际的问题中,并不知道哪些是高阶多项式的项,所以在代价函数中增加一个惩罚项/正则项,将代价函数中所有的参数值都最小化,收缩每一个参数。

模型越复杂,越是尝试拟合所有的训练数据,包括一些异常样本,这就容易造成在较小的区间里预测值产生较大的波动,这种大的波动反映了在某些小的区间里,导数值很大。(导数值可以反映在图上就是某个点的斜率,就是切线的陡峭程度)。而只有较大的参数值才能产生较大的导数。因此复杂的模型,参数值会比较大。

正则化参数要做的就是控制两个目标之间的平衡关系:在最小化训练误差的同时正则化参数使模型简单。

所以正则化的目标就是保证模型简单的基础上使模型具有很好的泛化性能。

正则化的方法包括:

L_0范数:向量中非零元素的个数(任何非零树的零次方等于1。0的零次方不存在。)

若用L_0范数来规范化参数矩阵,就是希望参数矩阵大部分元素都是0,使特征矩阵稀疏。但是很难求解优化。

L_1范数:是指向量中各个元素的绝对值之和。

L_2范数:各参数的平方和再求平方根。

L_2范数的优点:不仅可以防止过拟合,而且可以使优化求解变得稳定与迅速。

L_1范数正则化就是LASSO(least absolute shrinkage and selection operation,最小绝对收缩选择算子)。

L_2范数正则化就是岭回归(Ridge regression)。

L_1正则化会趋向于产生少量特征,而其他特征都为0,即L_1正则化更易获得稀疏解;而L_2会选择产生更多的特征,特征值都趋向于0.所以L_1范数可以用于特征选择;L_2用于规则化。

为什么L_1正则化更稀疏?

假设仅有两个属性,只有两个参数,绘制不带正则项的目标函数-平方误差项等值线,再绘制,范数等值线,如图1正则化后优化目标的解要在平方误差项和正则化项之间折中,即出现在图中等值线相交处采用。范数时,交点常出现在坐标轴上,即或为0;而采用范数时,交点常出现在某个象限中,即,均非0。也就是说,范数比范数更易获得“稀疏”解。
--------------------- 
作者:齐在 
来源:CSDN 
原文:https://blog.csdn.net/pxhdky/article/details/82960659 
版权声明:本文为博主原创文章,转载请附上博文链接!

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值