线性模型
基本形式
给定一个由
d个属性描述的示例x=(x1,x2,...,xd)
,其中
xi是x在第i个属性上的取值
,线性模型(linear model)试图学得一个通过属性的现实组合来进行预测的函数,即
f(x)=w1x1+w2x2+...+wdxd+b
一般用向量形式写成
f(x)=wTx+b
其中 w=(w1,w2,...,wd)。w和b学得之后,模型就得以确定。 由于 w 直观表达了各属性在预测中的重要性,因此线性模型有很好的可解释性(comprehensibility)。
许多功更为强大的非线性模型(nonlinear mobel)可在线性模型的基础上通过引入层级结构或高维映射而得。
线性回归
线性回归(linear regression)试图学得一个线性模型以尽可能准确地预测实值输出标记。
对离散属性,若属性值间存在序(order)关系,可通过连续化将其转化为连续值;若属性值间不存在序关系,假定有
线性回归试图学得
显然关键在于如何衡量 f(x)与y之间的差距。 均方差是回归任务中最常用的性能度量,因此我们可以试图让均方误差(square loss)最小化,即
(w∗,b∗)=argmax(w,b)∑i=1m(f(xi)−yi)2=argmax(w,b)∑i=1m(yi−wx1−b)2
均方误差有很好的几何意义,它对应了常用的欧几里德距离(Euclidean distance)。基于均方误差最小化来进行模型求解的方法称为最小二乘法(least square method)。在线性回归中,最小二乘法就是试图找到一条直线,使所有样本到直线上的欧式距离之和最小。
求解 w和b使E(w,b)=∑mi=1(yi−wx1−b)2 最小化的过程,称为线性回归模型的最小二乘参数估计(parameter estimation)。 将E分别对w和b求导 ,解
∂E(w,b)∂w=2(w∑i=1mx2i−∑i=1m(yi−b)xi)=0
∂E(w,b)∂b=2(mb−∑i=1m(yi−wxi))=0
得
w=∑mi=1yi(xi−x¯)∑mi=1x2i−1m(∑mi=1xi)2,x¯=1m∑i=1mxi
b=1m∑i=1m(yi−wxi)。
这里 E(w,b) 是关于 w 和
对于区间 [a,b] 上定义的函数 f ,若它对区间中任意两点
当样本由 d 个属性描述,此时试图学得
称为多元线性回归(multivariate linear regression)。
类似的,同样可以利用最小二乘法来对 w和b 进行估计。我们把 w和b 吸入向量形式 wˆ=(w;b), 把数据集 D 表示为一个