文章目录
1-3. 概念题
4. 如何限制空间
1.约束版本
对于线性回归问题,限定参数向量
w
的大小,即||w||₂ ≤ c
。这里c
是一个预先设定的常数,用于限制w
的长度。这个约束条件直接对参数向量的长度进行了限制,确保其不会过大或过小。
2.无约束版本min ( 1 2 N ∣ ∣ X w − y ∣ ∣ 2 2 + λ 2 ∣ ∣ w ∣ ∣ 2 2 ) \min(\frac{1}{2N}||Xw - y||_2^2+\frac{\lambda}{2}||w||_2^2) min(2N1∣∣Xw−y∣∣22+2λ∣∣w∣∣22)
N
是样本数量,X
是输入数据矩阵,w
是参数向量,y
是目标值向量。这个目标函数由两部分组成:第一部分是均方误差项,表示模型对数据的拟合程度;第二部分是正则化项,通过惩罚参数向量w
的长度来防止过拟合。参数λ
用于控制正则化的强度。
通过调整λ
的值,可以在拟合数据和限制参数大小之间进行权衡。
- 当
λ
较大时,正则化项的作用更强,参数向量w
会更趋向于零向量,从而防止过拟合;- 当
λ
较小时,正则化项的作用较弱,模型更注重拟合数据。例如,在实际应用中,可以通过交叉验证等方法来选择合适的
λ
值,以获得最佳的模型性能。
5. 梯度下降的计算
6. 随机梯度下降
- 批较小时的影响
- 随机梯度噪声大: 批大小很小时,每次用于计算梯度的样本少,导致计算出的随机梯度与真实梯度偏差大,噪声大。例如在图像分类任务中,小批大小可能使梯度在不同方向剧烈波动,影响模型向最优解前进。
- 不易收敛: 由于随机梯度噪声大,模型参数更新不稳定,难以收敛到较好的解。在回归问题中,模型可能在最优解附近振荡,且小批大小可能使模型陷入局部最优解。
- 批较大时的影响
- 运行速度慢:批大小较大时&#x