机器学习_线性回归模型

本文深入探讨了线性回归模型,包括无正则化、L2正则化(岭回归)和L1正则化(Lasso)的理论。解释了最小二乘线性回归如何等价于极大似然估计,以及正则回归如何与贝叶斯估计相关联。文章还详细介绍了线性回归的优化求解方法,如解析解、梯度下降和随机梯度下降,并特别讨论了Lasso优化的坐标下降法。最后,文章讨论了模型评估与模型选择,包括各种评价准则和Scikit learn中的实现。
摘要由CSDN通过智能技术生成

1.线性回归

1.1模型

1.1.1目标函数(损失函数、正则)

    a.无正则:最小二乘线性回归(OLS)

    b.L2正则:岭回归(Ridge Regression)

    c.L1正则:Lasso

1.1.2概率解释

    最小二乘线性回归等价于极大似然估计

    Recall:极大似然估计

    线性回归的MLE

    正则回归等价于贝叶斯估计

小结:目标函数

1.2优化求解

1.2.1 OLS的优化求解(解析解)

1.2.2 OLS的优化求解(梯度下降)

    梯度下降

    OLS的梯度下降

1.2.3 OLS的优化求解(随机梯度下降,SGD)

1.2.4 岭回归的优化求解

1.2.5 Lasso的优化求解——坐标下降法

    坐标下降法

小结:线性回归之优化求解

1.3模型评估与模型选择

1.3.1 评价准则

1.3.2 Scikit learn中回归评价指标

1.3.3 线性回归中模型选择

1.3.4 RidgeCV

1.3.5 LassoCV

小结:线性回归之模型选择

 

1.1模型

机器学习是根据训练数据对变量之间的关系进行建模。当输出变量(响应变量)y∈R是连续值时,我们称之为回归分析,即用函数描述一个或多个预测变量与响应变量y之间的关系,并根据该模型预测新的观测值对应的响应。

①给定训练数据D=\left \{ x_{i}|y_{i} \right \}_{i=1}^{N},其中y∈R是连续值,一共有N个样本,回归分析的目标是学习一个输入X到输出y的映射f

②对新的测试数据x,用学习到的映射f对其进行预测:\hat{y} = f(x)

③若假设映射f是一个线性函数,即y=f(x|w)=w^{T}x

称之为线性回归模型

1.1.1目标函数(损失函数、正则)

机器学习模型的目标函数包含两项:损失函数L和正则项R,分别代表度量模型与训练数据

  的匹配程度(损失函数越小越匹配)和对模型复杂度的“惩罚”以避免过拟合。

J(\theta) = \sum_{i=1}^{N}L(f(x_{i};\theta ),y_{i})+R(\theta)

因此目标函数最小要求和训练数据拟合得好,同时模型尽可能简单。体现了机器学习的基本准则:奥卡姆剃刀定律(Occam's Razor),即简单有效原则。

对回归问题,损失函数可以采用L2损失(可以根据实际情况选择其他有意义的损失函数),得到

L(f(x_{i};\theta ),y_{i})=(y_{i}-f(x_{i};\theta))^{2}

即残差的平方。对线性回归,所有样本的残差平方和为残差平方和(RSS):

RSS(w)=\sum_{i=1}^{N}(y_{i} - w^{T}x_{i})^{2}

    a.无正则:最小二乘线性回归(OLS)

由于线性模型比较简单,实际应用中有时正则项为空,得到最小二乘线性回归(OLS)(此时目标函数中只有残差平方和,“平方”的古时候的称为“二乘”),即

J(w)=\sum_{i=1}^{N}(y_{i} - w^{T}x_{i})^{2} = RSS(w)

    b.L2正则:岭回归(Ridge Regression)

正则项可以为L2正则,得到岭回归(Ridge Regression)模型:

J(w)=\sum_{i=1}^{N}(y_{i} - w^{T}x_{i})^{2} = RSS(w) + \lambda \left \| w \right \|_{2}^{2}

    c.L1正则:Lasso

正则项也可以选L1正则,得到Lasso模型:

J(w)=\sum_{i=1}^{N}(y_{i} - w^{T}x_{i})^{2} = RSS(w) + \lambda \left \| w \right \|_{1}

①当λ取合适值,Lasso(least absolute shrinkage and selection operator)的结果是稀疏的(w的某些元素系数为0,起到特征选择作用

 

1.1.2概率解释

     a.最小二乘线性回归等价于极大似然估计

①假设:y=f(x)+\varepsilon = w^{T}x+\varepsilon

②其中\varepsilon为线性预测和真值之间的残差

③我们通常假设残差的分布为\varepsilon \sim N(0,\sigma ^{2}) , 均值为0,方差为\sigma ^{2}。对该残差分布的基础上,加上y的分布,因此线性回归可以写成:

p(y|x,\theta ) \sim N(y|w^{T}x,\sigma ^{2})

其中\theta = (w,\sigma ^{2})。均值移动变化,方差没有变。

注意:由于假设残差为0均值的正态分布,最小二乘线性回归的残差

    b.Recall:极大似然估计

极大似然估计(MLE)定义为(即给定参数\theta的情况下,数据D出现的概率为p,则MLE取使得p最大的参数\theta

\hat{\theta } = arg \underset{\theta}{max} log p(D|\theta )

其中(log)似然函数为

l(\theta ) = log p (D|\theta) = \sum_{i=1}^{N}log p(y_{i}|x_{i},\theta )

① 表示在参数为\theta的情况下,数据D = \left \{ x_{i},y_{i} \right \}_{i=1}^{N}出现的概率

② 极大似然:选择数据出现概率最大的参数

    c.线性回归的MLE

①OLS的似然函数为

l(\theta ) = logp(D,\theta ) = \sum_{i=1}^{N}logp(y_{i}|x_{i,\theta })

②极大似然可等价地写成极小负log似然损失(NLL)(在sklearn中,叫做logloss)

NLL(\theta) = \sum _{i=1}^{N}logp(y_{i}|x_{i},\theta ) = \sum _{i=1}^{N}log[(\frac{1}{2\pi \sigma ^{2}})^\frac{1}{2})exp(-\frac{1}{2 \sigma ^{2}}(y_{i} - w^{T}x_{i})^{2})] = \frac{N}{2}log(2\pi\sigma ^{2}) + \frac{1}{2\sigma ^{2}}\sum _{i=1}^{N}(y_{i}-w^{T}x_{i})^{2}

在上式中,观察第二项即可得知OLS的RSS项与MLE是等价的关系(相差常数倍不影响目标函数取极值的位置)

    d.正则回归等价于贝叶斯估计

①假设残差的分布为

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值