一、学习目标
1.认识什么是回归任务
2.了解回归分析的三种方法
3.学习扩展的非线性回归模型
4.掌握回归任务中的误差分析工作
二、什么是回归任务
回归任务的目标是,对于一系列数据(x,y),我们设计出一个模型f,使得f(x)=y。这不就是分类任务嘛?其实不一样,数据中的y不再是两类或者多类,而是有一定的规律性。而回归任务主要做的,其实是用一条曲线去串起这一系列数据。如下所示:
当然,在二维中,这是一条曲线,在高维中,他就是一个超平面,训练数据的点则会落在这个超平面上。
而回归问题的数学定义如下:
而将分类问题与回归问题进行对比:实际上分类也可以看成是一个分类问题:
而在实际应用中,回归模型比分类模型更弱:
(1)手段有限,应用的场景太少
(2)智能不足,无法再继续智能化了
(3)构造函数难,一元回归模型比较多,但是多元回归就比较少了。
但还是要学回归模型,就像现在都有大模型了,你还是得从机器学习学起。
先看一下对模型和数据的描述:
关于“平均结果”,可以这样认为,我们有n个不同的数据库,用于训练n个模型,对n个模型取平均就是这个模型(线性回归模型)的“平均结果”。他这里写的y就是我们模型,而不是数据的标签。
学习的方法有三个:最小二乘估计、最大似然估计、最大后验估计。
三、最小二乘估计(Least Squares)
其实这在高中就学习过的方法,计算的就是所有点到直线的距离之和最短的直线:
我们直接看其最后结果吧,这个方法是最简单、最经典的方法了:
四、最大似然估计
最大似然估计的思想是认为真实的数据和我们得到的数据有受到环境噪音的影响。我们对这个噪音进行建模:建模成一个正态分布,于是我们的目标就是求对于我们数据的最大似然概率。
噪音建模如下:(如右下图的绿色部分)
对这个似然函数取对数:
消除定值的部分,于是得到了我们的目标函数。会发现最大似然估计的结果与最小二乘法一模一样:
于是乎,既然想到最大似然,我们就想能否用最大后验来估计呢?
五、最大后验估计
按照理论,最大后验就是在似然的基础上,乘上先验概率。
二者相乘然后取对数,就能得到我们的目标函数了:
发现此时的最大后验概率估计就是对最大似然估计(当然,也是最小二乘估计)的正则化结果。而正则化的好处就是避免模型的过拟合问题。
过拟合问题,表现在图片中就是每个点都在曲线上,这并不是好的表现,因为这只是在训练集中表现得结果,其在测试集的表现就可能很差,毕竟,绿色的线才是理想的函数。而过拟合问题表现在模型中就是参数量过多,于是正则化项的作用就是避免参数量过多,如下图就是加了正则化项的目标函数,对θ取二范数是正则化项,当参数量多的时候,整个目标值会变大,于是这样的模型我们不要。λ是人工设置的一个值,称为正则化因子,λ越大,就让模型更注重减少参数,否则就越看重正确率。
此外,在这里,正则化结果还能避免矩阵无法求逆的问题。
六、扩展的非线性模型
暂无
七、误差分析
回归问题的误差分析分为三个:
先看一大堆的公式推导:(这是在确定偏差、方差和噪声,计算的原理是比较模型的输入和标签的差距)
其中E可以通过下面这几张图来表示:
这张图也表示了正则化因子特别地对方差的影响。