线性回归(一)

3.1 基本形式

线性模型试图学习一个通过属性的线性组合来进行预测的函数,即:
f ( x ) = w 1 x 1 + w 2 x 2 + . . . b f(x)=w_1x_1+w_2x_2+...b f(x)=w1x1+w2x2+...b
一般向量形式写成
f ( x ) = w T + b f(x)=w^T+b f(x)=wT+b
其中
w = ( w 1 ; w 2 ; . . ; w d ) w=(w_1;w_2;..;w_d) w=(w1;w2;..;wd)

3.2 线性回归

“线性回归”试图学得一个线性模型以尽可能准确地预测实值输出标记
对于离散属性,若属性值之间存在“序”的关系,就可以通过连续化将其转化为连续值,例如二值属性“身高”的取值“高”“中”“低”可转化为{1.0,0.5,0.0},若属性值间不存在序的关系,假定有k维向量,类似于one-hot编码
线性回归试图学得
f ( x i ) = w x i + b , 使 得 f ( x i ) ≈ y i f(x_i)=wx_i+b,使得f(x_i) \approx y_i f(xi)=wxi+b,使f(xi)yi
如何学到w和b呢,均方误差是回归任务中最常用的性能度量
w和b学得之后,模型就得以确定
( w ∗ , b ∗ ) = a r g min ⁡ x ∑ i = 1 m ( f ( x i ) − y i ) 2 = ∑ i = 1 m ( f ( x i ) − w i x i − b ) 2 (w^*,b^*)=arg\min\limits_x \displaystyle\sum_{i=1}^m (f(x_i)-y_i)^2= \displaystyle\sum_{i=1}^m (f(x_i)-w_ix_i-b)^2 (w,b)=argxmini=1m(f(xi)yi)2=i=1m(f(xi)wixib)2
均方误差有非常好的几何意义,它对应了常用的欧几里得距离。基于均方误差最小化进行模型求解的方法称为“最小二乘法”。在线性回归中,最小二乘法就是试图找到一条直线,使所有样本到直线上的欧式距离之和最小
求解w和b是的 E ( w , b ) = ∑ i = 1 m ( y i − w i x i − b ) 2 E_{(w,b)}=\textstyle\sum_{i=1}^m(y_i-w_ix_i-b)^2 E(w,b)=i=1m(yiwixib)2
以上函数是关于w和b的凸函数,最小化的过程,称为线性回归模型的最小二乘“参数估计”,我们可以将他求导,得到
请添加图片描述
∂ E ( w , b ) ∂ w = 2 ( w ∑ i = 1 m x i 2 − ∑ i = 1 m ( y i − b ) x i ) \frac{\partial E_{(w,b)}}{\partial w}=2 (w \displaystyle\sum_{i=1}^mx_i^2- \displaystyle\sum_{i=1}^m(y_i-b)x_i) wE(w,b)=2(wi=1mxi2i=1m(yib)xi)
∂ E ( w , b ) ∂ b = 2 ( m b − ∑ i = 1 m ( y i − w x i ) ) \frac{\partial E_{(w,b)}}{\partial b}=2 (mb- \displaystyle\sum_{i=1}^m(y_i-wx_i)) bE(w,b)=2(mbi=1m(yiwxi))
然后使上面两个偏导数为0可得
w = ∑ i = 1 m y i ( x i − w x ‾ ) ∑ i = 1 m x i 2 − 1 m ( ∑ i = 1 m x i ) 2 w=\dfrac{\displaystyle\sum_{i=1}^m y_i(x_i-w \overline{x})}{\displaystyle\sum_{i=1}^m x_i^2-\dfrac{1}{m}(\displaystyle\sum_{i=1}^m x_i)^2} w=i=1mxi2m1(i=1mxi)2i=1myi(xiwx)
b = 1 m ∑ i = 1 m ( y i − w x i ) b=\dfrac{1}{m} \displaystyle\sum_{i=1}^m(y_i-wx_i) b=m1i=1m(yiwxi)

极大似然估计

请添加图片描述
请添加图片描述

机器学习三要素请添加图片描述

模型:比如f(x)=wx+b还是多次方曲线
算法:比如梯度下降发 牛顿法 或者闭式解法

3.1.2多元线性回归

当样本有d个属性描述时
f ( x i ) = w T x i + b i f(x_i)=w^Tx_i+b_i f(xi)=wTxi+bi
这称为“多元线性回归”
把w和b吸收入进向量形式
w ^ = ( w ; b ) \hat{w}=(w;b) w^=(w;b)
相应的,把数据集D表示为一个m×(d+1)大小的矩阵X,前d个元素对应着实力的d个属性值
X = ( x 11 x 12 x 13 . . . x 1 d 1 x 21 x 22 x 23 . . . x 2 d 1 . . . x m 1 x m 2 x m 3 . . . x m d 1 ) = ( x 1 T 1 x 2 T 1 . . . x m T 1 ) X= \begin{pmatrix} x_{11} & x_{12} &x_{13}&...&x_{1d}&1\\ x_{21} & x_{22} &x_{23}&...&x_{2d}&1\\ ... \\ x_{m1} & x_{m2} &x_{m3}&...&x_{md}&1 \end{pmatrix}= \begin{pmatrix} x_1^T &1\\ x_2^T &1\\ ... \\ x_m^T &1 \end{pmatrix} X=x11x21...xm1x12x22xm2x13x23xm3.........x1dx2dxmd111=x1Tx2T...xmT111
再把标记也写成向量形式 y = ( y 1 ; y 2 ; . . . ; y m ) y=(y_1;y_2;...;y_m) y=(y1;y2;...;ym)

w ∗ ^ = a r g m i n ( y − X w ^ ) T ( y − X w ^ ) \hat{w^*}=arg min(y-X\hat{w})^T(y-X\hat{w}) w^=argmin(yXw^)T(yXw^)
E w ∗ ^ = a r g m i n ( y − X w ^ ) T ( y − X w ^ ) E_{\hat{w^*}}=arg min(y-X\hat{w})^T(y-X\hat{w}) Ew^=argmin(yXw^)T(yXw^)
对w求导可得
∂ E w ^ ∂ w = 2 X T ( X w ^ − y ) \frac{\partial E_{\hat{w}}}{\partial w}=2X^T(X\hat{w}-y) wEw^=2XT(Xw^y)

X T X X^TX XTX为满秩矩阵或者正定矩阵的时候,E才是凸函数,可以使上述式子为0,可以得
w ∗ ^ = ( X T X ) − 1 X T y \hat{w^*}=(X^TX)^{-1}X^Ty w^=(XTX)1XTy
则最终学到的多元线性回归模型为
f ( x i ) = x i T ^ ( X T X ) − 1 X T y f(x_i)=\hat{x^T_i}(X^TX)^{-1}X^Ty f(xi)=xiT^(XTX)1XTy
但现实生活中,很多时候他不是正定的

向量化步骤如下:
请添加图片描述

请添加图片描述
请添加图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值