线性模型是非常常见、简单的模型,很多更为强大的非线性模型是在线性模型的基础上通过引入层级结构或者高维映射得到的。而且线性模型很大的一个优点是可解释性,比如对于模型:
y = 0.8*x1 + 0.2*x2 + 0.05*x3 + 1
我们很容易看出来特征x1在模型分类判别时最为重要。这一思想在cam深度网络可视化中也有体现,感兴趣的童鞋可以自行搜索,具体不细说了。
本文参照西瓜书中的内容,主要是为了练习一下数学知识,推导一下公式。
一、单特征属性的线性模型
给定一个数据集,线性模型试图学得一个线性模型以尽可能准确地预测真实值输出标记。考虑一个简单地情况,每个样本只有一个特征值,预测值与真实值误差用最小均方误差衡量,那么推导过程可以表示为:
以上得到地w和b就是模型的最优解的闭式解。
当然更一般的情况,我们的数据集往往包含样本的大量属性值,例如图像处理时的大量特征,那么就要考虑多特征情况下的线性回归,此时可以转化为矩阵运算的形式。
二、多特征线性回归
公式推导如下:
正则化的一般形式可以写为:
其中表述了我们希望获得具有某种性质的模型,同时有助于削减假设空间,降低了最小化训练误差造成的过拟合风险。