深度学习plus

持续更新

1.残差密集网络RDN

论文链接:https://arxiv.org/abs/1802.08797

本质:利用所有分层特征的图像超分辨率网络-单幅图像超分辨率(SISR)旨在于低分辨率(LR)测量的基础上生成视觉良好的高分辨率(HR)图像。

Residual Dense Block RDB )相当于结合了 ResNet DenseNet 的主要思想,并在最后特征连接后添加了 1 × 1 卷积用于特征融合,可以在同时拥有 DenseNet ResNet 的优势的前提下更好的对特征进行表述和利用。 充分利用所有卷积层的分层特征。
RDB 还允许将前一个 RDB 的状态直接连接至当前 RDB 的所有层,从而形成连续记忆(CM)机制。然后使用 RDB 中的局部特征融合来自适应地学习来自先前和当前局部特征的更有效特征,并稳定更大网络的训练。
 

2.交叉熵误差

交叉熵描述了两个概率分布之间的距离,当交叉熵越小说明二者之间越接近

分类问题用 One Hot Label + Cross Entropy Loss

Training 过程,分类问题用 Cross Entropy Loss,回归问题用 Mean Squared Error。

3.批量梯度下降

每次使用全部的训练集赝本来更新梯度

每次使用全部训练集样本计算损失函数 loss_function 的梯度 params_grad,然后使用学习速率 learning_rate 朝着梯度相反方向去更新模型的每个参数params

批量梯度下降每次学习都使用整个训练集,所以优点时是每次更新都会朝着正确的方向进行,最后能够保证收敛于极值点(凸函数收敛于全局极值点,非凸函数可能会收敛于局部极值点),但是其缺点在于每次学习时间过长,并且如果训练集很大以至于需要消耗大量的内存,并且全量梯度下降不能进行在线模型参数更新

4.随机梯度下降

随机梯度下降算法每次从训练集中随机选择一个样本来进行学习,学习是非常快速的,并且可以进行在线更新

随机梯度下降最大的缺点在于每次更新可能并不会按照正确的方向进行,因此可以带来优化波动(扰动)

5.小批量梯度下降

小批量梯度下降综合了批量梯度下降和随机梯度下降,在每次的更新速度和更新的次数之间去了一个平衡,其每次更新从训练集中随机选择 m,m<n 个样本进行学习

6.优化方法

Moment:模拟的是物体运动时的惯性,就是更新的时候在一定程度上保留之前更新的方向,同时利用当前batch的梯度微调最终的更新方向。这样一来,可以在一定程度上增加稳定性,从而学习地更快,并且还有一定摆脱局部最优的能力

 

Adagrad:对学习率进行了一个约束

RMSprop:RMSprop可以算作Adadelta的一个特例,依赖于全局学习率

Adam(Adaptive Moment Estimation)本质上是带有动量项的RMSprop,它利用梯度的一阶矩估计和二阶矩估计动态调整每个参数的学习率。Adam的优点主要在于经过偏置校正后,每一次迭代学习率都有个确定范围,使得参数比较平稳。

7.BatchNormalization的作用

通过规范化的手段,将越来越偏的分布拉回到标准化的分布,使得激活函数的输入值落在激活函数对输入比较敏感的区域,从而使梯度变大,加快学习收敛速度,避免梯度消失的问题。

在神经网络中,当前面隐藏层的学习速率低于后面隐藏层的学习速率,即随着隐藏层数目的增加,分类准确率反而下降了。

8. 1*1的卷积作用

实现跨通道的交互和信息整合,实现卷积核通道数的降维和升维,可以实现多个feature map的线性组合,而且可是实现与全连接层的等价效果

降维:当输入为6x6x32时,1x1卷积的形式是1x1x32,当只有一个1x1卷积核的时候,此时输出为6x6x1

1x1卷积一般只改变输出通道数(channels),而不改变输出的宽度和高度

9.深度理解channel

 tensorflow 中给出的,对于输入样本中 channels 的含义。一般的RGB图片,channels 数量是 3 (红、绿、蓝);而monochrome图片,channels 数量是 1 。

mxnet 中提到的,一般 channels 的含义是,每个卷积层中卷积核的数量

假设现有一个为 6×6×3的图片样本,使用 3×3×3 的卷积核(filter)进行卷积操作。此时输入图片的 channels 为 3,而卷积核中的 in_channels 与 需要进行卷积操作的数据的 channels 一致

单个卷积核

多个卷积核

  1. 最初输入的图片样本的 channels ,取决于图片类型,比如RGB;
  2. 卷积操作完成后输出的 out_channels ,取决于卷积核的数量。此时的 out_channels 也会作为下一次卷积时的卷积核的 in_channels
  3. 卷积核中的 in_channels ,刚刚2中已经说了,就是上一次卷积的 out_channels ,如果是第一次做卷积,就是1中样本图片的 channels 。

10.GAN

2014Goodfellow提出了GAN,GAN的主要结构包括一个生成器G(Generator)和一个判别器D.在训练过程中,生成网络G的目标就是尽量生成真实的图片去欺骗判别网络D。而D的目标就是尽量把G生成的图片和真实的图片分别开来。这样,G和D构成了一个动态的“博弈过程”。(Discriminator)

11.DCGAN

DCGAN使用了一种被称为转置卷积运算的方法,即反卷积层.转置卷积可以进行向上缩放操作。它们帮助我们将低分辨率图像转换为高分辨率图像。

DCGAN对卷积神经网络的结构做了一些改变,以提高样本的质量和收敛的速度,这些改变有:

  • 取消所有pooling层。G网络中使用转置卷积(transposed convolutional layer)进行上采样,D网络中用加入stride的卷积代替pooling。
  • 在D和G中均使用batch normalization
  • 去掉FC层,使网络变为全卷积网络
  • G网络中使用ReLU作为激活函数,最后一层使用tanh
  • D网络中使用LeakyReLU作为激活函数

12.StyleGAN

StyleGAN 没有专注于创建更真实的图像,而是改进了 GANs 对生成的图像进行精细控制的能力。

StyleGAN 不专注于架构和损失函数

13.L1,L2正则化

加在损失函数后面调整loss输出,防止过拟合

14.

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值