线性回归（一）_1 线性回归方程 y=f(x)=w1x1+w2x2+…+wnxn+b 有( )个自变量。-CSDN博客

本文链接：https://blog.csdn.net/qq_43689908/article/details/121399845

3.1 基本形式

线性模型试图学习一个通过属性的线性组合来进行预测的函数，即：
$f(x)=w_1x_1+w_2x_2+...b$
一般向量形式写成
$f(x)=w^T+b$
其中
$w=(w_1;w_2;..;w_d)$

3.2 线性回归

“线性回归”试图学得一个线性模型以尽可能准确地预测实值输出标记
对于离散属性，若属性值之间存在“序”的关系，就可以通过连续化将其转化为连续值，例如二值属性“身高”的取值“高”“中”“低”可转化为{1.0,0.5,0.0}，若属性值间不存在序的关系，假定有k维向量，类似于one-hot编码
线性回归试图学得
$f(x_i)=wx_i+b,使得f(x_i) \approx y_i$
如何学到w和b呢，均方误差是回归任务中最常用的性能度量
w和b学得之后，模型就得以确定
$(w^*,b^*)=arg\min\limits_x \displaystyle\sum_{i=1}^m (f(x_i)-y_i)^2= \displaystyle\sum_{i=1}^m (f(x_i)-w_ix_i-b)^2$
均方误差有非常好的几何意义，它对应了常用的欧几里得距离。基于均方误差最小化进行模型求解的方法称为“最小二乘法”。在线性回归中，最小二乘法就是试图找到一条直线，使所有样本到直线上的欧式距离之和最小
求解w和b是的 $E_{(w,b)}=\textstyle\sum_{i=1}^m(y_i-w_ix_i-b)^2$
以上函数是关于w和b的凸函数，最小化的过程，称为线性回归模型的最小二乘“参数估计”，我们可以将他求导，得到
请添加图片描述
$\frac{\partial E_{(w,b)}}{\partial w}=2 (w \displaystyle\sum_{i=1}^mx_i^2- \displaystyle\sum_{i=1}^m(y_i-b)x_i)$
$\frac{\partial E_{(w,b)}}{\partial b}=2 (mb- \displaystyle\sum_{i=1}^m(y_i-wx_i))$
然后使上面两个偏导数为0可得
$w=\dfrac{\displaystyle\sum_{i=1}^m y_i(x_i-w \overline{x})}{\displaystyle\sum_{i=1}^m x_i^2-\dfrac{1}{m}(\displaystyle\sum_{i=1}^m x_i)^2}$
$b=\dfrac{1}{m} \displaystyle\sum_{i=1}^m(y_i-wx_i)$

极大似然估计

请添加图片描述

机器学习三要素

模型：比如f(x)=wx+b还是多次方曲线
算法：比如梯度下降发牛顿法或者闭式解法

3.1.2多元线性回归

当样本有d个属性描述时
$f(x_i)=w^Tx_i+b_i$
这称为“多元线性回归”
把w和b吸收入进向量形式
$\hat{w}=(w;b)$
相应的，把数据集D表示为一个m×(d+1)大小的矩阵X，前d个元素对应着实力的d个属性值
$\begin{pmatrix} x_{11} & x_{12} &x_{13}&...&x_{1d}&1\\ x_{21} & x_{22} &x_{23}&...&x_{2d}&1\\ ... \\ x_{m1} & x_{m2} &x_{m3}&...&x_{md}&1 \end{pmatrix}= \begin{pmatrix} x_1^T &1\\ x_2^T &1\\ ... \\ x_m^T &1 \end{pmatrix}$
再把标记也写成向量形式 $y=(y_1;y_2;...;y_m)$
有
$\hat{w^*}=arg min(y-X\hat{w})^T(y-X\hat{w})$
令 $E_{\hat{w^*}}=arg min(y-X\hat{w})^T(y-X\hat{w})$
对w求导可得
$\frac{\partial E_{\hat{w}}}{\partial w}=2X^T(X\hat{w}-y)$