教学中,吴老师使用了平方英尺和房间数两个参数做对比
由于平方英尺数远大于房间数,所以它的权重分配就会偏小,但这样会造成一个后果
当梯度下降时,w1只要变化一点点,损失函数J就会变化很大,w2则相反。
可以看下图:房间数目与房子大小的对应关系将会集中在下半部分,不均匀,导致损失函数关于w1和w2的图像变得细长(因为w1变化一点,w2不变,整个损失函数(注意损失函数值的变化是看圈与圈之间的距离)会变化很大,所以横轴之间变化大,而w2则刚好相反)
这样会导致梯度下降次数的增加(我个人觉得是因为学习率固定,导致有的变化快,有的变化小,不同步)。
而归一化,将两个参数都缩放到一个一个范围内(0~1)使得图像变成了这样
使得不同的要素之间不会掐架,减少了梯度下降的次数。