参考:周志华机器学习第三章
1. 基本形式
给定由d个属性描述的示例
x=(x1;x2;...;xd)
,其中xi是x在第i个属性上的取值,线性模型试图学得一个通过属性的线性组合来进行预测函数,即
f(x)=w1x1+w2x2+...+wdxd+b
一般用向量形式写成
f(x)=wtx+b
其中
w=(w1;w2;...;wd)
.w和b学得之后,模型就得以确定。
线性模型的特点:
- 形式简单
- 易于建模,非线性模型可在线性模型基础上引入层次结构或高维映射而得
- 具有很好的可解释性
2. 线性回归
基本形式
给定数据集 D=(x1,y1),(x2,y2),...,(xm,ym) ,其中 xi=(xi1;xi2;xi3;...;xid) ,线性回归试图学得一个线性模型以尽可能准确地预测实值输出标记。最简单的情形是输入属性的数目只有一个时,此时 D={(xi,yi)}mi=1,xi∈R . 周志华老师教材中使用的数据集如下:
编号 | 色泽 | 根蒂 | 敲声 | 纹理 | 脐部 | 触感 | 密度 | 含糖率 | 好瓜 |
---|---|---|---|---|---|---|---|---|---|
1 | 青绿 | 蜷缩 | 浊响 | 清晰 | 凹陷 | 硬滑 | 0.697 | 0.46 | 是 |
2 | 乌黑 | 蜷缩 | 沉闷 | 清晰 | 凹陷 | 硬滑 | 0.774 | 0.376 | 是 |
3 | 乌黑 | 蜷缩 | 浊响 | 清晰 | 凹陷 | 硬滑 | 0.634 | 0.264 | 是 |
4 | 青绿 | 蜷缩 | 沉闷 | 清晰 | 凹陷 | 硬滑 | 0.608 | 0.318 | 是 |
5 | 浅白 | 蜷缩 | 浊响 | 清晰 | 凹陷 | 硬滑 | 0.556 | 0.215 | 是 |
6 | 青绿 | 稍蜷 | 浊响 | 清晰 | 稍凹 | 软粘 | 0.403 | 0.237 | 是 |
7 | 乌黑 | 稍蜷 | 浊响 | 稍糊 | 稍凹 | 软粘 | 0.481 | 0.149 | 是 |
8 | 乌黑 | 稍蜷 | 浊响 | 清晰 | 稍凹 | 硬滑 | 0.437 | 0.211 | 是 |
9 | 乌黑 | 稍蜷 | 沉闷 | 稍糊 | 稍凹 | 硬滑 | 0.666 | 0.091 | 否 |
10 | 青绿 | 硬挺 | 清脆 | 清晰 | 平坦 | 软粘 | 0.243 | 0.267 | 否 |
11 | 浅白 | 硬挺 | 清脆 | 模糊 | 平坦 | 硬滑 | 0.245 | 0.057 | 否 |
12 | 浅白 | 蜷缩 | 浊响 | 模糊 | 平坦 | 软粘 | 0.343 | 0.099 | 否 |
13 | 青绿 | 稍蜷 | 浊响 | 稍糊 | 凹陷 | 硬滑 | 0.639 | 0.161 | 否 |
14 | 浅白 | 稍蜷 | 沉闷 | 稍糊 | 凹陷 | 硬滑 | 0.657 | 0.198 | 否 |
15 | 乌黑 | 稍蜷 | 浊响 | 清晰 | 稍凹 | 软粘 | 0.36 | 0.37 | 否 |
16 | 浅白 | 蜷缩 | 浊响 | 模糊 | 平坦 | 硬滑 | 0.593 | 0.042 | 否 |
17 | 青绿 | 蜷缩 | 沉闷 | 稍糊 | 稍凹 | 硬滑 | 0.719 | 0.103 | 否 |
注意到
xi
的取值范围是实数,因此需要将“青绿”、“平坦”等属性值转化为实值。对于离散属性,若属性值间存在“序”关系,则通过连续化将其转化为连续值,如身高的高、低可转化为
{1.0,0.0}
;若属性值间不存在序关系,则通常将k个属性值转化为k维向量,如将属性“瓜类”的取值“西瓜、南瓜、黄瓜”转化为(0,0,1),(0,1,0),(1,0,0)。
线性回归试图学得
f(xi)=wxi+b
,使得
f(xi)≈yi
确定w和b的关键在于如何衡量f(x)与y之间的差距。这就要用到性能度量。
度量
回归任务最常使用的性能度量是均方误差。
(w∗,b∗)=argmin(w,b)∑mi=1(f(xi)−yi)2=argmin(w,b)∑mi=1(yi−wxi−b)2
均方误差也叫作平方损失(square loss),对应了常见的欧氏距离,基于均方误差最小化进行求解的方法称为“最小二乘法(least square method)。在线性回归中,最小二乘法就是试图找到一条直线,使所有样本到直线上的欧氏距离之和最小。
参数估计
求解w和b使
E(w,b)=∑mi=1(yi−wxi−b)2
最小化的过程,称为线性回归模型的最小二乘参数估计。将
E(w,b)
分别对w和b求导并使其为零可得到w和b最优解的闭式解。
w=∑mi=1yi(xi−x¯)∑mi=1x2i−1m∑mi=1xi2
b=1m∑mi=1(yi−wxi)
其中
x¯
为x的均值