首先:如果你的参数比原来更小,
那么你的模型就会比原来的更''简单'',可以想象成曲线更平滑.
其实你想想,参数越大,对应特征对于模型的影响就越大,减小参数,然后,你懂的,嗯.
其实我是想削减那些和模型低相关特征的影响,但是我不知道是哪个,那就统统让它们变小,宁错过,不放过.
至于怎么让参数变小,我之前不是有个损失函数吗,我的梯度下降可以让损失函数变小,'那我直接往原来的损失函数后面加上参数的某个平均值,到时候梯度下降的额时候就能让它变小了.
最后得到这么一个东西:
那个多出来的叫正则化系数,是用来平衡真的损失函数和参数和的,正则化系数大就使劲减小参数,正则化系数小就使劲减小真的损失函数.
让一个参数变小就叫惩罚,如果你的正则化系数太大,将来系数们被惩罚的很厉害,都接近于零了,这时候只剩下偏振项的系数,这时候模型就几乎变成一条曲线了,这就叫欠拟合,所以选择正则化系数也得小心.