“第二课堂”AI实践（3）阿里云天池（深度学习，神经网络）-CSDN博客

本文链接：https://blog.csdn.net/Super_zzx_star/article/details/140639360

1.one hot编码

每个唯一的分类值都被赋予一个唯一的二进制向量，也被称为"独热”向量，因为在这个向量中，只有一个位置的元素是1(表示该类别的存在)，其余所有位置的元素都是0
如，猫、狗、鸟三分类中，猫可以被编码为[1,0,0]，狗为[0,1,0],鸟为[0,0,1]

2.梯度下降

求函数y=(x-3)**2+1的最小值，给个任意初始值x，如x=-1，我们想要找到x=3，如何做呢。根据导数dy/dx，我们可以对x迭代。x=x-dy/dx ，由于我们 dy/dx 计算的值比较大，就相当于我们每次迭代x一步跨的很长。所以我们设定一个参数lr(learning rate)也就是我们所说的"学习率"或者“步长"

x = x-lr*dy/dx

3.损失函数

y(i1)是预测值，y(i2)是真实值，MSELOSS代表预测和真实的误差，预测越准，误差越小

4.特征缩放（归一化）

使用原因：

使用单一指标对某事物进行评价并不合理，因此需要多指标综合评价方法。多指标综合评价方法，就是把描述某事物不同方面的多个指标综合起来得到一个综合指标，并通过它评价、比较该事物。由于性质不同，不同评价指标通常具有不同的量纲和数量级。当各指标相差很大时，如果直接使用原始指标值计算综合指标，就会突出数值较大的指标在分析中的作用、削弱数值较小的指标在分析中的作用。
为消除各评价指标间量纲和数量级的差异、保证结果的可靠性，就需要对各指标的原始数据进行特征缩放(也有数据标准化、数据归一化的说法，但这些叫法不准确，所以不推荐)。由于量纲和数量级不同，所以需要特征缩放，特征缩放可以显著提升部分机器学习算法的性能，但它对部分算法没有帮助。

不使用特征缩放的缺点：

假如特征 x1的数值是100左右，特征x2的数值是1左右，方程为y=w1x1+w2x2+b，那w1对y的影响就更大，对Loss的影响也更大，损失函数关于w1的梯度也更大，而损失函数关于w2的梯度却很小，因此两个特征就不能使用相同的学习率。
不进行特征缩放的话，Error Surface就是一个椭圆，梯度下降时不一定是朝着最优点(圆心)，速度就慢。
如果进行了特征缩放，Error Surface会尽可能趋近于圆，因此梯度下降时会一直朝着最优点(圆心)，所以速度快。

特征缩放的优点：

提高模型的数值稳定性
缩放后，输入的X会变得较小，X较小会带来较小梯度。如果X很大，与此同时，梯度很大，此时选取的W与全局最小值之间的距离很小时，且学习率固定，则算法会迈出一大步，会导致无法靠近全局最小值，造成损失发生震荡或爆炸