1、梯度
梯度是个向量不是标量,偏微分是特殊导数,是标量。函数的梯度是一个向量,向量的方向代表函数在当前点的增长方向,向量的长度代表函数在当前点的增长的速率。
动量就相当于惯性,给定个动量,能够帮助冲出局部最小值,往更优解方向继续下降。
2、Pytorch中Relu用法,应用频率极高,优先使用,会减少sigmoid方法所带来的梯度离散和梯度爆炸情况。
Mean Squared Error:MSE均方差
Cross Entropy Loss:分类中间的误差,即可用于二分类,也可以用于多分类
3、单一输出感知机和多输出感知机
loss.backward()反向传播,计算当前的梯度。该参数应和调用backward()函数的Tensor的维度相同,或者是可broadcast的维度。
默认同一个运算得到的Tensor仅能进行一次backward()。再次运算得到的Tesnor,可以再次进行backward()。
4、logistic regression用的是Sigmoid函数方法
5、熵和交叉熵
使用真实的概率分布P计算平均编码长度,实际编码长度基于期望的概率分布Q计算,这个计算结果就是P和Q的交叉熵。
交叉熵 >= 熵
交叉熵使用H(P,Q)表示,意味着使用P计算期望,使用Q计算编码长度;所以H(P,Q)并不一定等于H(Q,P),除了在P=Q(估计是完美)的情况下,H(P,Q) = H(Q,P) = H(P)。
交叉熵用于分类问题。
6、防止过拟合Early stopping(在快要出现过拟合的时候停止)和dropout(剪掉部分)
7、下采样(max pooling和arg pooling)、上采样(.interpolate)
上采样
8、数据特征处理(先对数据特征进行处理,范围[0,1]之间,有助于提高求最优解的效率)
应用Batch Normalization收敛的速度更快,更容易搜索到最优解,变得更稳定了,参数调整会方便。
9、数据增强
Flip切分、Rotate旋转、Resize重新设置尺寸、Random Crop随机裁剪
Noise
10、Auto-Encoders
11、GAN原理