DataWhale吃瓜3章学习(1)

第三章:线性模型(1)

3.1 线性模型的基本形式

线性模型试图通过属性的线性组合来进行预测。数学公式为:

f ( x ) = w 1 x 1 + w 2 x 2 + ⋯ + w d x d + b f(x) = w_{1}x_{1} + w_{2}x_{2} + \dots + w_{d}x_{d} + b f(x)=w1x1+w2x2++wdxd+b

其中, x = ( x 1 , x 2 , … , x d ) x = (x_{1}, x_{2}, \dots, x_{d}) x=(x1,x2,,xd) 是输入特征向量, w = ( w 1 , w 2 , … , w d ) w = (w_{1}, w_{2}, \dots, w_{d}) w=(w1,w2,,wd) 是权重向量, b b b 是偏置项。模型一旦确定,对于任何输入 x x x,我们可以通过计算 f ( x ) f(x) f(x) 来得到预测值。

3.2 线性回归

3.2.1 线性回归的数学描述

给定数据集 D = { ( x i , y i ) } D = \{(x_{i}, y_{i})\} D={(xi,yi)},其中 x i x_{i} xi 是输入特征向量, y i y_{i} yi 是对应的输出标记。线性回归的目标是找到最优的参数 w w w b b b,使得预测值 f ( x i ) f(x_{i}) f(xi) 尽可能接近真实标记 y i y_{i} yi。通常使用均方误差(MSE)作为损失函数,即:

MSE = 1 m ∑ i = 1 m ( f ( x i ) − y i ) 2 \text{MSE} = \frac{1}{m} \sum_{i=1}^{m} (f(x_{i}) - y_{i})^2 MSE=m1i=1m(f(xi)yi)2

其中, m m m 是样本数量。

我们尝试将MSE最小化:
( w ∗ , b ∗ ) = arg ⁡ min ⁡ ( w , b ) ∑ i = 1 m ( f ( x i ) − y i ) 2 = arg ⁡ min ⁡ ( w , b ) ∑ i = 1 m ( y i − w x i − b ) 2 \begin{aligned}\left(w^{*}, b^{*}\right) & =\underset{(w, b)}{\arg \min } \sum_{i=1}^{m}\left(f\left(x_{i}\right)-y_{i}\right)^{2} \\& =\underset{(w, b)}{\arg \min } \sum_{i=1}^{m}\left(y_{i}-w x_{i}-b\right)^{2}\end{aligned} (w,b)=(w,b)argmini=1m(f(xi)yi)2=(w,b)argmini=1m(yiwxib)2

3.2.2 最小二乘法

最小二乘法是通过最小化损失函数来求解 w w w b b b 的方法。对于线性回归问题,我们可以通过求导数并令其为零来找到最小化均方误差的 w w w b b b。我们对 w w w b b b 分别求偏导数,并令它们等于零:

∂ E ( w , b ) ∂ w = 2 ( w ∑ i = 1 m x i 2 − ∑ i = 1 m ( y i − b ) x i ) ∂ E ( w , b ) ∂ b = 2 ( m b − ∑ i = 1 m ( y i − w x i ) ) \begin{array}{l}\frac{\partial E_{(w, b)}}{\partial w}=2\left(w \sum_{i=1}^{m} x_{i}^{2}-\sum_{i=1}^{m}\left(y_{i}-b\right) x_{i}\right) \\\frac{\partial E_{(w, b)}}{\partial b}=2\left(m b-\sum_{i=1}^{m}\left(y_{i}-w x_{i}\right)\right)\end{array} wE(w,b)=2(wi=1mxi2i=1m(yib)xi)bE(w,b)=2(mbi=1m(yiwxi))

这将给出 w w w b b b 的最优解。在实际操作中,我们通常会将这些方程写成矩阵形式,以便利用矩阵运算进行快速求解。当设计矩阵 X X X 满秩或者正定的时候,最优解可以表示为:

w ∗ = ( X T X ) − 1 X T y , b ∗ = y ‾ − w ∗ T x ‾ w^{*} = (X^TX)^{-1}X^T y, \quad b^{*} = \overline{y} - w^{*T} \overline{x} w=(XTX)1XTy,b=ywTx

其中, x ‾ \overline{x} x 是所有输入特征的均值向量, y ‾ \overline{y} y 是所有输出标记的均值。

3.2.3 多变量线性回归

当我们有多个输入特征时,线性回归模型可以表示为:

f ( x ) = w T x + b f(x) = w^T x + b f(x)=wTx+b

此时,我们需要对权重向量 w w w 和偏置项 b b b 进行估计。这可以通过最小二乘法来完成,即通过最小化均方误差来求解 w w w b b b。在多变量情况下,最优解的表达式与单变量情况类似:

w ∗ = ( X T X ) − 1 X T y , b ∗ = y ‾ − w ∗ T x ‾ w^{*} = (X^TX)^{-1}X^T y, \quad b^{*} = \overline{y} - w^{*T} \overline{x} w=(XTX)1XTy,b=ywTx

  • 6
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值