数据:X:N*P ;Y:N*1;W:p*1。N为数据样本数量,P数据维度。
最小二乘估计(LSE):
损失函数:
矩阵推导:将损失函数表示成矩阵相乘。
几何意义:
Y-Xw:误差向量,X表示特征空间;误差向量和特征空间的任何向量垂直(独立)。
===>
正则化:
当数据样本量N<样本维度P时, 不可逆,即造成过拟合。
加入L2正则抑制过拟合:。
===>。
贝叶斯角度:
L2正则化就是加入了高斯先验:
似然:
MAP:
===>