机器学习_线性回归模型

最新推荐文章于 2024-08-13 01:54:14 发布

qq_389825161

最新推荐文章于 2024-08-13 01:54:14 发布

阅读量3.6k

点赞数 1

本文链接：https://blog.csdn.net/qq_27344959/article/details/82814149

版权

本文深入探讨了线性回归模型，包括无正则化、L2正则化（岭回归）和L1正则化（Lasso）的理论。解释了最小二乘线性回归如何等价于极大似然估计，以及正则回归如何与贝叶斯估计相关联。文章还详细介绍了线性回归的优化求解方法，如解析解、梯度下降和随机梯度下降，并特别讨论了Lasso优化的坐标下降法。最后，文章讨论了模型评估与模型选择，包括各种评价准则和Scikit learn中的实现。

摘要由CSDN通过智能技术生成

1.线性回归

1.1模型

1.1.1目标函数（损失函数、正则）

a.无正则：最小二乘线性回归（OLS）

b.L2正则：岭回归（Ridge Regression）

c.L1正则：Lasso

1.1.2概率解释

最小二乘线性回归等价于极大似然估计

Recall:极大似然估计

线性回归的MLE

正则回归等价于贝叶斯估计

小结：目标函数

1.2优化求解

1.2.1 OLS的优化求解（解析解）

1.2.2 OLS的优化求解（梯度下降）

梯度下降

OLS的梯度下降

1.2.3 OLS的优化求解（随机梯度下降，SGD）

1.2.4 岭回归的优化求解

1.2.5 Lasso的优化求解——坐标下降法

坐标下降法

小结：线性回归之优化求解

1.3模型评估与模型选择

1.3.1 评价准则

1.3.2 Scikit learn中回归评价指标

1.3.3 线性回归中模型选择

1.3.4 RidgeCV

1.3.5 LassoCV

小结：线性回归之模型选择

1.1模型

机器学习是根据训练数据对变量之间的关系进行建模。当输出变量（响应变量）y∈R是连续值时，我们称之为回归分析，即用函数描述一个或多个预测变量与响应变量y之间的关系，并根据该模型预测新的观测值对应的响应。

①给定训练数据 $D=\left \{ x_{i}|y_{i} \right \}_{i=1}^{N}$ ，其中y∈R是连续值，一共有N个样本，回归分析的目标是学习一个输入X到输出y的映射f

②对新的测试数据x，用学习到的映射f对其进行预测： $\hat{y} = f(x)$

③若假设映射f是一个线性函数，即 $y=f(x|w)=w^{T}x$

称之为线性回归模型

1.1.1目标函数（损失函数、正则）

机器学习模型的目标函数包含两项：损失函数L和正则项R，分别代表度量模型与训练数据

的匹配程度（损失函数越小越匹配）和对模型复杂度的“惩罚”以避免过拟合。

$J(\theta) = \sum_{i=1}^{N}L(f(x_{i};\theta ),y_{i})+R(\theta)$

因此目标函数最小要求和训练数据拟合得好，同时模型尽可能简单。体现了机器学习的基本准则：奥卡姆剃刀定律（Occam's Razor）,即简单有效原则。

对回归问题，损失函数可以采用L2损失（可以根据实际情况选择其他有意义的损失函数），得到

$L(f(x_{i};\theta ),y_{i})=(y_{i}-f(x_{i};\theta))^{2}$

即残差的平方。对线性回归，所有样本的残差平方和为残差平方和（RSS）:

$RSS(w)=\sum_{i=1}^{N}(y_{i} - w^{T}x_{i})^{2}$

a.无正则：最小二乘线性回归（OLS）

由于线性模型比较简单，实际应用中有时正则项为空，得到最小二乘线性回归（OLS）（此时目标函数中只有残差平方和，“平方”的古时候的称为“二乘”），即

$J(w)=\sum_{i=1}^{N}(y_{i} - w^{T}x_{i})^{2} = RSS(w)$

b.L2正则：岭回归（Ridge Regression）

正则项可以为L2正则，得到岭回归（Ridge Regression）模型：

$J(w)=\sum_{i=1}^{N}(y_{i} - w^{T}x_{i})^{2} = RSS(w) + \lambda \left \| w \right \|_{2}^{2}$

c.L1正则：Lasso

正则项也可以选L1正则，得到Lasso模型：

$J(w)=\sum_{i=1}^{N}(y_{i} - w^{T}x_{i})^{2} = RSS(w) + \lambda \left \| w \right \|_{1}$

①当λ取合适值，Lasso（least absolute shrinkage and selection operator）的结果是稀疏的（w的某些元素系数为0，起到特征选择作用

1.1.2概率解释

a.最小二乘线性回归等价于极大似然估计

①假设： $y=f(x)+\varepsilon = w^{T}x+\varepsilon$

②其中 $\varepsilon$ 为线性预测和真值之间的残差

③我们通常假设残差的分布为 $\varepsilon \sim N(0,\sigma ^{2})$ ，均值为0，方差为 $\sigma ^{2}$ 。对该残差分布的基础上，加上y的分布，因此线性回归可以写成：

$p(y|x,\theta ) \sim N(y|w^{T}x,\sigma ^{2})$

其中 $\theta = (w,\sigma ^{2})$ 。均值移动变化，方差没有变。

注意：由于假设残差为0均值的正态分布，最小二乘线性回归的残差

b.Recall:极大似然估计

极大似然估计（MLE）定义为（即给定参数 $\theta$ 的情况下，数据D出现的概率为p，则MLE取使得p最大的参数 $\theta$ ）

$\hat{\theta } = arg \underset{\theta}{max} log p(D|\theta )$

其中（log）似然函数为

$l(\theta ) = log p (D|\theta) = \sum_{i=1}^{N}log p(y_{i}|x_{i},\theta )$

① 表示在参数为 $\theta$ 的情况下，数据 $D = \left \{ x_{i},y_{i} \right \}_{i=1}^{N}$ 出现的概率

② 极大似然：选择数据出现概率最大的参数

c.线性回归的MLE

①OLS的似然函数为

$l(\theta ) = logp(D,\theta ) = \sum_{i=1}^{N}logp(y_{i}|x_{i,\theta })$

②极大似然可等价地写成极小负log似然损失（NLL）(在sklearn中，叫做logloss)

$NLL(\theta) = \sum _{i=1}^{N}logp(y_{i}|x_{i},\theta ) = \sum _{i=1}^{N}log[(\frac{1}{2\pi \sigma ^{2}})^\frac{1}{2})exp(-\frac{1}{2 \sigma ^{2}}(y_{i} - w^{T}x_{i})^{2})] = \frac{N}{2}log(2\pi\sigma ^{2}) + \frac{1}{2\sigma ^{2}}\sum _{i=1}^{N}(y_{i}-w^{T}x_{i})^{2}$