一 序
本文属于极客时间基础课学习笔记系列。还是属于串下知识点。
二 基础概念
回归效应:
英国的统计学家高尔顿,他发现高个子父亲的儿子身高会矮一些,而矮个子父亲的儿子身高会高一些,也就是说人类的身高都会回到平均值附近(不然就会产生两极分化现象了)。
首先对一些父子的身高进行了抽样,得到数据集D,然后根据数据集拟合出一条直线;最后通过该直线就可以对某父亲X的儿子的身高进行预测。
高尔顿给出了第一个线性回归的表达式:
回归分析:
回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系。再众多回归分析中,线性回归最容易拟合。拟合(就是找线)。
通常使用曲线/线来拟合数据点,目标是使曲线到数据点的距离差异最小。
线性回归: 是假设输出变量入肝输入变量的线性组合,并根据这一关系求解线性组合中的最优系数。
表达式:
损失函数:
使用均方误差作为损失函数,使用均方误差最小化目标函数的方法称为最小二乘法。
均方误差表达的是预测值与真实值之间的平均的平方距离。几何意义 :当回归模型为二维平面上的直线时,均方误差表示的预测值与真实值之间欧氏距离。也就是两点间向量的L2 范数。
在线性回归中,就是找到一个直线,使得所有样本到直线的欧式距离最小。
三 使用均方误差的解释
为什么使均方误差最小的参数就是和训练样本匹配的最优 模型呢?
假设误差项满足正态分布(高斯分布),利用极大似然估计(已知样本数据和分布的情况下,找到使样本数据以最大概率出现的 假设)。
也就是说对于单变量线性回归而言,从几何意义出发的最小二乘法与从概率意义出发的极大似然估计是等价的。
求解均方误差最小值过程,就是分别对 w 和 b 求导。
之前学习的时候,有最小二乘推导:https://blog.csdn.net/bohu83/article/details/113933414
单变量线性回归只是最简单一种特例,当样本涉及到多个属性时,这类问题称为多元线性回归。
四 解决线性回归过拟合的方法:
一种思路是分析数据,重新做数据清冼,调整特征工程还可以扩充数据集,收集更多数据。
这里主要是采用正则化方法(也就是添加额外的惩罚项):
- L1正则化(Lasso回归):稀疏化模型参数。
- L2正则化(Rideg/岭回归):缩小模型参数。
Lasso的特点:稀疏性的引入,原来维度太高,容易出现过拟合的问题,使用Lasso 去除一部分特征,这是一种复杂问题简化思路:当主要矛盾跟次要矛盾存在时,先解决主要矛盾。
关于Lasso的详细说明,可以看这篇:
https://blog.csdn.net/bohu83/article/details/113932288
通过引入惩罚项来抑制过拟合,是以训练误差上升的代价,来换取测试误差的下降。