持续更新
1.残差密集网络RDN
论文链接:https://arxiv.org/abs/1802.08797
本质:利用所有分层特征的图像超分辨率网络-单幅图像超分辨率(SISR)旨在于低分辨率(LR)测量的基础上生成视觉良好的高分辨率(HR)图像。
2.交叉熵误差
交叉熵描述了两个概率分布之间的距离,当交叉熵越小说明二者之间越接近
分类问题用 One Hot Label + Cross Entropy Loss
Training 过程,分类问题用 Cross Entropy Loss,回归问题用 Mean Squared Error。
3.批量梯度下降
每次使用全部的训练集赝本来更新梯度
每次使用全部训练集样本计算损失函数 loss_function 的梯度 params_grad,然后使用学习速率 learning_rate 朝着梯度相反方向去更新模型的每个参数params
批量梯度下降每次学习都使用整个训练集,所以优点时是每次更新都会朝着正确的方向进行,最后能够保证收敛于极值点(凸函数收敛于全局极值点,非凸函数可能会收敛于局部极值点),但是其缺点在于每次学习时间过长,并且如果训练集很大以至于需要消耗大量的内存,并且全量梯度下降不能进行在线模型参数更新
4.随机梯度下降
随机梯度下降算法每次从训练集中随机选择一个样本来进行学习,学习是非常快速的,并且可以进行在线更新。
随机梯度下降最大的缺点在于每次更新可能并不会按照正确的方向进行,因此可以带来优化波动(扰动)
5.小批量梯度下降
小批量梯度下降综合了批量梯度下降和随机梯度下降,在每次的更新速度和更新的次数之间去了一个平衡,其每次更新从训练集中随机选择 m,m<n 个样本进行学习
6.优化方法
Moment:模拟的是物体运动时的惯性,就是更新的时候在一定程度上保留之前更新的方向,同时利用当前batch的梯度微调最终的更新方向。这样一来,可以在一定程度上增加稳定性,从而学习地更快,并且还有一定摆脱局部最优的能力
Adagrad:对学习率进行了一个约束
RMSprop:RMSprop可以算作Adadelta的一个特例,依赖于全局学习率
Adam(Adaptive Moment Estimation)本质上是带有动量项的RMSprop,它利用梯度的一阶矩估计和二阶矩估计动态调整每个参数的学习率。Adam的优点主要在于经过偏置校正后,每一次迭代学习率都有个确定范围,使得参数比较平稳。
7.BatchNormalization的作用
通过规范化的手段,将越来越偏的分布拉回到标准化的分布,使得激活函数的输入值落在激活函数对输入比较敏感的区域,从而使梯度变大,加快学习收敛速度,避免梯度消失的问题。
在神经网络中,当前面隐藏层的学习速率低于后面隐藏层的学习速率,即随着隐藏层数目的增加,分类准确率反而下降了。
8. 1*1的卷积作用
实现跨通道的交互和信息整合,实现卷积核通道数的降维和升维,可以实现多个feature map的线性组合,而且可是实现与全连接层的等价效果
降维:当输入为6x6x32时,1x1卷积的形式是1x1x32,当只有一个1x1卷积核的时候,此时输出为6x6x1
1x1卷积一般只改变输出通道数(channels),而不改变输出的宽度和高度
9.深度理解channel
tensorflow 中给出的,对于输入样本中 channels
的含义。一般的RGB图片,channels
数量是 3 (红、绿、蓝);而monochrome图片,channels
数量是 1 。
mxnet 中提到的,一般 channels
的含义是,每个卷积层中卷积核的数量。
假设现有一个为 6×6×3的图片样本,使用 3×3×3 的卷积核(filter)进行卷积操作。此时输入图片的 channels
为 3,而卷积核中的 in_channels
与 需要进行卷积操作的数据的 channels
一致
- 最初输入的图片样本的
channels
,取决于图片类型,比如RGB;- 卷积操作完成后输出的
out_channels
,取决于卷积核的数量。此时的out_channels
也会作为下一次卷积时的卷积核的in_channels
;- 卷积核中的
in_channels
,刚刚2中已经说了,就是上一次卷积的out_channels
,如果是第一次做卷积,就是1中样本图片的channels
。
10.GAN
2014Goodfellow提出了GAN,GAN的主要结构包括一个生成器G(Generator)和一个判别器D.在训练过程中,生成网络G的目标就是尽量生成真实的图片去欺骗判别网络D。而D的目标就是尽量把G生成的图片和真实的图片分别开来。这样,G和D构成了一个动态的“博弈过程”。(Discriminator)
11.DCGAN
DCGAN使用了一种被称为转置卷积运算的方法,即反卷积层.转置卷积可以进行向上缩放操作。它们帮助我们将低分辨率图像转换为高分辨率图像。
DCGAN对卷积神经网络的结构做了一些改变,以提高样本的质量和收敛的速度,这些改变有:
- 取消所有pooling层。G网络中使用转置卷积(transposed convolutional layer)进行上采样,D网络中用加入stride的卷积代替pooling。
- 在D和G中均使用batch normalization
- 去掉FC层,使网络变为全卷积网络
- G网络中使用ReLU作为激活函数,最后一层使用tanh
- D网络中使用LeakyReLU作为激活函数
12.StyleGAN
StyleGAN 没有专注于创建更真实的图像,而是改进了 GANs 对生成的图像进行精细控制的能力。
StyleGAN 不专注于架构和损失函数
13.L1,L2正则化
加在损失函数后面调整loss输出,防止过拟合
14.