对于x如图,假设有两组W,最终W乘以X的转置都为1,但是
w1只与X的第一个像素点,与其他像素值无关,就算是[1,2,3,4]也是算出来1
w2是综合考虑了每一个点。分布显的均匀。
于是引入正则化惩罚项
假设引入L2惩罚项,计算W的平方和,则
w1的惩罚项为1^2+0+0+0=1
w2惩罚项为4x(1/4)^2=1/4
虽然他们有相同的损失函数,但是加上正则化惩罚项之后,就不一样了。这时候就会选择w2,因为整体损失函数值偏低。
下图为最终的损失函数
对于x如图,假设有两组W,最终W乘以X的转置都为1,但是
w1只与X的第一个像素点,与其他像素值无关,就算是[1,2,3,4]也是算出来1
w2是综合考虑了每一个点。分布显的均匀。
于是引入正则化惩罚项
假设引入L2惩罚项,计算W的平方和,则
w1的惩罚项为1^2+0+0+0=1
w2惩罚项为4x(1/4)^2=1/4
虽然他们有相同的损失函数,但是加上正则化惩罚项之后,就不一样了。这时候就会选择w2,因为整体损失函数值偏低。
下图为最终的损失函数