线性模型的基本形式
给定由
个属性描述的实例
,其中
是
在第
个属性上的取值,线性模型(linear model)试图学得一个通过属性的线性组合来进行预测的函数,即
一般用向量形式写成:
和
确定后,模型就得以确定
参数查阅表
把数据集
表示为一个m*(d+1)大小的矩阵
,其中每行对应于一个实例,每行前d个元素对应于实例的d个属性值,最后一个元素恒置于1,即
(一)均方误差(mean squared error)
基于欧几里得距离(Euclidean distance),我们得到回归任务最常用的性能度量均方误差
更一般的描述
p.s. D为给定样例集,是实例
的真实标记,概率密度函数
(二)最小二乘法做单元线性回归
最小二乘法基于均方误差最小化,在线性模型中可用于单个属性()多个数据的线性回归。求解
和
使
均方误差最小。
分别对和
进行求导,得到
然后联立两式等于0,得到最优解
p.s.是
的均值
最优解和
带入线性模型,得到
(三)最小二乘法做多元线性回归
更一般化,做多个属性多个数据的线性回归。最小二乘法对和
进行估计,使得
参考上面过程,对求导得
等于0,当为满轶矩阵或正定矩阵得最优解
则解出模型。