三.线性模型
1.一元线性回归
1.1算法原理
例子:利用【发际线的高度】等特征预测【计算机水平】
根据经验/数据形态,分析数据发现是线性关系, 即 f ( x ) = w x i + b f(x)=wx_i+b f(x)=wxi+b
Q:怎么找出这条直线?-----即如何确定w和b呢?显然,关键在于如何衡量f(x)与y之间的差别(即假设与真值之间的差别)
A:找拟合最好的直线(即所有点到该直线距离最短对应得那条直线)----------均方误差$E_{(w,b)}=\frac{1}{m} \sum_{i=1}^{m}{(y_i - f(x_i))^2} 最 小 ( 可 以 省 略 最小(可以省略 最小(可以省略\frac{1}{m} $)
- 线性回归:指点到直线平行y轴的距离(即纵坐标差值)
- 正交回归:指点到直线的垂直距离(即垂线段的长度)
一元线性模型试图学得一个通过属性的线性组合来进行预测的函数: f ( x ) = w x i + b f(x)=wx_i+b f(x)=wxi+b
其目标就是通过观测样本利用某一种策略(常见的如最小二乘法、最大似然法)学习 w w w和 b b b。从而根据未知标签或预测量的新样本对应的特征,带入 w w w和 b b b,得预测结果。
对应到机器学习三要素中分别为:
- 模型:线性回归模型, f ( x ) = w x + b f(x) = wx+b f(x)=wx+b
- 策略:常见如利用最小二乘法或最大似然法构建的损失函数(loss function ) E ( w , b ) = ∑ i = 1 m ( y i − f ( x i ) ) 2 E_{(w,b)}=\sum_{i=1}^{m}{(y_i - f(x_i))^2} E(w,b)=∑i=1m(yi−f(xi))2求解 w w w和 b b b。
- 算法:求偏导 ∂ E ( w , b ) ∂ w = 0 \frac{\partial E_{(w,b)}}{\partial w} =0 ∂w∂E(w,b)=0, ∂ E ( w , b ) ∂ b = 0 \frac{\partial E_{(w,b)}}{\partial b} =0 ∂b∂E(w,b)=0,求解 w w w和 b b b的最优闭式解
1.2最小二乘法
基于最小化均方误差来进行模型求解的方法称为最小二乘法。在线性回归中,最小二乘法就是试图找到一条直线,使所有样本到直线上的欧氏距离之和最小。
均方误差的定义: E ( w , b ) = ∑ i = 1 m ( y i − f ( x i ) ) 2 E_{(w,b)}=\sum_{i=1}^{m}{(y_i - f(x_i))^2} E(w,b)=∑i=1m(yi−f(xi))2
以均方误差作为损失函数(loss function), a r g m i n ( w , b ) \mathop{argmin}\limits_{(w,b)} (w,b)argmin表示 E ( w , b ) E_{(w,b)} E(w,b)取最小值时参数 ( w , b ) (w,b) (w,b)的取值 ( w ∗ , b ∗ ) (w^*,b^*) (w∗,b∗),策略就是:
( w ∗ , b ∗ ) = a r g m i n ( w , b ) E ( w , b ) = a r g m i n ( w , b ) ∑ i = 1 m ( y i − w x i − b ) 2 (w^*,b^*)=\mathop{argmin}\limits_{(w,b)}E_{(w,b)}=\mathop{argmin}\limits_{(w,b)}\sum_{i=1}^{m}{(y_i - wx_i-b)^2} (w∗,b∗)=(w,b)argminE(w,b)=(w,b)argmin∑i=1m(yi−wxi−b)2
1.3极大似然估计
数学知识补充
1.–知识补充
使得观测样本出现概率最大的分布就是代求分布,也即使得联合概率(似然函数) L ( θ ) L(\theta ) L(θ)取得最大值的 θ ∗ \theta^* θ∗即为 θ \theta θ的估计值
2.eg:
3.对数似然函数
由于连乘不好求导,故将似然函数对数化,以方便求解
极大似然估计求解一元线性回归
1.4求解w和b
数学知识补充
1.凸函数与凸集
注意数分与高数的凹凸函数定义相反。凸函数的开口朝上。
2.梯度(多元函数的一阶导数)
3.海塞矩阵Hessian matrix(多元函数的二阶导数)
4.怎么证明矩阵为半正定矩阵?
半正定矩阵的判定定理之一:若实对称矩阵的所有顺序主子式均为非负,则该矩阵为半 正定矩阵。
5…凸函数证明定理
6.凸充分性定理
求解 w w w和 b b b其本质上是一个多元函数求最值(点)的问题,更具体点是凸函数求最值的问题。 推导思路:
- 证明 E ( w , b ) = ∑ i = 1 m ( y i − w x i − b ) 2 E_{(w,b)}=\sum_{i=1}^{m}{(y_i - wx_i-b)^2} E(w,b)=∑i=1m(yi−wxi−b)2时关于 w w w和 b b b的凸函数;
- 用凸函数求最值的思路(求导)求解 w w w和 b b b。
1.证明 E ( w , b ) = ∑ i = 1 m ( y i − w x i − b ) 2 E_{(w,b)}=\sum_{i=1}^{m}{(y_i - wx_i-b)^2} E(w,b)=∑i=1m(yi−wxi−b)2时关于 w w w和 b b b的凸函数
由凸函数证明定理可知,只需求多元函数的海塞矩阵为半正定矩阵即证明为凸函数
2.用凸函数求最值的思路(求导)求解 w w w和 b b b。