线性回归模型

最新推荐文章于 2024-10-02 21:43:07 发布

安悦

最新推荐文章于 2024-10-02 21:43:07 发布

阅读量332

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_40620694/article/details/104946796

版权

机器学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

线性回归模型

首先明确回归模型的定义或者说回归模型和分类模型的区别：预测值是一个连续变量

一个常见的误解是linear model和linear regression之前的区别，线性模型是指对于参数 $w$ 是线性的，而提到线性回归又往往值对x的线性组合

Linear Basic Function Models

线性回归 linear regression

最简单的的线性模型：对输入向量的线性组合

$y(\textbf{x},w)=w_0+w_1x_1+\cdots+w_Dx_D$

此模型既是参数 $w$ 的线性函数，也是输入变量 $x_i$ 的线性函数

Linear Basic Function Models

单纯的线性组合使模型有较大的局限性，所以有如下扩展
$y(\textbf{x},w)=w_0+\sum_{j=1}^{M-1}w_j\phi_j(x)$
$\phi_j$ 称为基函数(basic function)

令 $\phi_0(x)=1$ ，则上式可以化作
$y(\textbf{x},w)=\sum_{j=0}^{M-1}w_j\phi_j(x)=\textbf{w}^T\boldsymbol{\phi}(\mathbf{x})$

Basic function

$\phi_{j}=x_{j}$
$\phi_{j}=\exp\{-\frac{(x-\mu_j)^2}{2s^2}\}$
$\phi_j(x)=\sigma(\frac{x-\mu_{j}}{s})$
$tanh=2\sigma(a)-1$

最大似然和最小二乘

正常来说最大似然法是参数估计的方法，但是可以通过假设模型有一个高斯噪声，来用最大似然求解xx问题。

目标变量 $t$ ，确定性函数 $y(\mathbf{x},w)$ ，高斯噪声 $\epsilon$
$t=y(\mathbf{x},w)+\epsilon$
则 $p(\mathbf{t}|X,w,\beta)=\prod_{i=1}^N\mathcal{N}(t_n|w^T\phi(x_n),\beta^{-1})$
$ln(\mathbf{t}|w,\beta)=\sum_{n=1}^N ln\mathcal{N}(t_n|w^T\phi(x_n),\beta^{-1})\\ =\frac{N}{2}ln\beta-\frac{N}{2}ln(2\pi)-\beta E_D(w)\\ E_D=\frac{1}{2}\sum_{n=1}^N(t_n-w^T\phi(x_n))^2$
$\nabla_w ln(\mathbf{t}|w,\beta)=0\\ w_{ML}=(\Phi^T\Phi)^{-1}\Phi^Tt\\ \Phi=\begin{bmatrix} \phi_{0}(x_{1})&\phi_{1}(x_{1})&\cdots&\phi_{M-1}(x_{1})\\ \cdots&\cdots&\cdots&\cdots\\ \phi_{0}(x_{N})&\phi_{1}(x_{N})&\cdots&\phi_{M-1}(x_{N}) \end{bmatrix}$
所以可以看出使用最大似然法求解w的方法和使用最小二乘法求解的方法是等价的

Sequential learning

使用最大似然法求出的参数 $w$ 是使用全部数据计算而出的，对于较大的数据集其计算量是不可接受的。所以可以分批利用数据集，此方法s称作sequential learning
他有一个更有名的名字：随机梯度下降
$w^{\tau+1}=w^{\tau}-\eta\nabla E_n$

正则化最小二乘

为了避免过拟合，我们在损失函数中加入正则化项
$E_D(w)+\lambda E_W(w)$
$\lambda$ 为正则化系数
常见的正则化函数
$E_W(w)=\frac{1}{2}w^Tw$
可以解得有正则化下 $w$ 的解
$w=(\lambda I+\Phi^T\Phi)^{-1}\Phi^T t$