1.线性回归
1.1模型
1.1.1目标函数(损失函数、正则)
a.无正则:最小二乘线性回归(OLS)
b.L2正则:岭回归(Ridge Regression)
c.L1正则:Lasso
1.1.2概率解释
最小二乘线性回归等价于极大似然估计
Recall:极大似然估计
线性回归的MLE
正则回归等价于贝叶斯估计
小结:目标函数
1.2优化求解
1.2.1 OLS的优化求解(解析解)
1.2.2 OLS的优化求解(梯度下降)
梯度下降
OLS的梯度下降
1.2.3 OLS的优化求解(随机梯度下降,SGD)
1.2.4 岭回归的优化求解
1.2.5 Lasso的优化求解——坐标下降法
坐标下降法
小结:线性回归之优化求解
1.3模型评估与模型选择
1.3.1 评价准则
1.3.2 Scikit learn中回归评价指标
1.3.3 线性回归中模型选择
1.3.4 RidgeCV
1.3.5 LassoCV
小结:线性回归之模型选择
1.1模型
机器学习是根据训练数据对变量之间的关系进行建模。当输出变量(响应变量)y∈R是连续值时,我们称之为回归分析,即用函数描述一个或多个预测变量与响应变量y之间的关系,并根据该模型预测新的观测值对应的响应。
①给定训练数据,其中y∈R是连续值,一共有N个样本,回归分析的目标是学习一个输入X到输出y的映射f
②对新的测试数据x,用学习到的映射f对其进行预测:
③若假设映射f是一个线性函数,即
称之为线性回归模型
1.1.1目标函数(损失函数、正则)
机器学习模型的目标函数包含两项:损失函数L和正则项R,分别代表度量模型与训练数据
的匹配程度(损失函数越小越匹配)和对模型复杂度的“惩罚”以避免过拟合。
因此目标函数最小要求和训练数据拟合得好,同时模型尽可能简单。体现了机器学习的基本准则:奥卡姆剃刀定律(Occam's Razor),即简单有效原则。
对回归问题,损失函数可以采用L2损失(可以根据实际情况选择其他有意义的损失函数),得到
即残差的平方。对线性回归,所有样本的残差平方和为残差平方和(RSS):
a.无正则:最小二乘线性回归(OLS)
由于线性模型比较简单,实际应用中有时正则项为空,得到最小二乘线性回归(OLS)(此时目标函数中只有残差平方和,“平方”的古时候的称为“二乘”),即
b.L2正则:岭回归(Ridge Regression)
正则项可以为L2正则,得到岭回归(Ridge Regression)模型:
c.L1正则:Lasso
正则项也可以选L1正则,得到Lasso模型:
①当λ取合适值,Lasso(least absolute shrinkage and selection operator)的结果是稀疏的(w的某些元素系数为0,起到特征选择作用
1.1.2概率解释
a.最小二乘线性回归等价于极大似然估计
①假设:
②其中为线性预测和真值之间的残差
③我们通常假设残差的分布为 , 均值为0,方差为。对该残差分布的基础上,加上y的分布,因此线性回归可以写成:
其中。均值移动变化,方差没有变。
注意:由于假设残差为0均值的正态分布,最小二乘线性回归的残差
b.Recall:极大似然估计
极大似然估计(MLE)定义为(即给定参数的情况下,数据D出现的概率为p,则MLE取使得p最大的参数)
其中(log)似然函数为
① 表示在参数为的情况下,数据出现的概率
② 极大似然:选择数据出现概率最大的参数
c.线性回归的MLE
①OLS的似然函数为
②极大似然可等价地写成极小负log似然损失(NLL)(在sklearn中,叫做logloss)
在上式中,观察第二项即可得知OLS的RSS项与MLE是等价的关系(相差常数倍不影响目标函数取极值的位置)
d.正则回归等价于贝叶斯估计
①假设残差的分布为