“第二课堂”AI实践(3)阿里云天池(深度学习,神经网络)

1.one hot编码

每个唯一的分类值都被赋予一个唯一的二进制向量,也被称为"独热”向量,因为在这个向量中,只有一个位置的元素是1(表示该类别的存在),其余所有位置的元素都是0
如,猫、狗、鸟三分类中,猫可以被编码为[1,0,0],狗为[0,1,0],鸟为[0,0,1]

2.梯度下降

求函数y=(x-3)**2+1的最小值,给个任意初始值x,如x=-1,我们想要找到x=3,如何做呢。根据导数dy/dx,我们可以对x迭代。x=x-dy/dx ,由于我们 dy/dx 计算的值比较大,就相当于我们每次迭代x一步跨的很长。所以我们设定一个参数lr(learning rate)也就是我们所说的"学习率"或者“步长"

 x = x-lr*dy/dx

3.损失函数

y(i1)是预测值,y(i2)是真实值,MSELOSS代表预测和真实的误差,预测越准,误差越小

4.特征缩放(归一化)

使用原因:

使用单一指标对某事物进行评价并不合理,因此需要多指标综合评价方法。多指标综合评价方法,就是把描述某事物不同方面的多个指标综合起来得到一个综合指标,并通过它评价、比较该事物。由于性质不同,不同评价指标通常具有不同的量纲和数量级。当各指标相差很大时,如果直接使用原始指标值计算综合指标,就会突出数值较大的指标在分析中的作用、削弱数值较小的指标在分析中的作用。
为消除各评价指标间量纲和数量级的差异、保证结果的可靠性,就需要对各指标的原始数据进行特征缩放(也有数据标准化、数据归一化的说法,但这些叫法不准确,所以不推荐)。由于量纲和数量级不同,所以需要特征缩放,特征缩放可以显著提升部分机器学习算法的性能,但它对部分算法没有帮助。

不使用特征缩放的缺点:

假如特征 x1的数值是100左右,特征x2的数值是1左右,方程为y=w1x1+w2x2+b,那w1对y的影响就更大,对Loss的影响也更大,损失函数关于w1的梯度也更大,而损失函数关于w2的梯度却很小,因此两个特征就不能使用相同的学习率。
不进行特征缩放的话,Error Surface就是一个椭圆,梯度下降时不一定是朝着最优点(圆心),速度就慢。
如果进行了特征缩放,Error Surface会尽可能趋近于圆,因此梯度下降时会一直朝着最优点(圆心),所以速度快。

特征缩放的优点:

提高模型的数值稳定性
缩放后,输入的X会变得较小,X较小会带来较小梯度。如果X很大,与此同时,梯度很大,此时选取的W与全局最小值之间的距离很小时,且学习率固定,则算法会迈出一大步,会导致无法靠近全局最小值,造成损失发生震荡或爆炸

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值