线性回归 -- 简介
线性回归是机器学习算法中最简单的算法之一,它是监督学习的一种算法,主要思想是在给定训练集上学习得到一个线性函数,在损失函数的约束下,求解相关系数,最终在测试集上测试模型的回归效果。
线性回归是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,运用十分广泛。其表达形式为, 为误差服从均值为0的正态分布。
回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。
线性回归分析
一元线性回归:一个解释变量
多元线性回归:多个解释变量
线性回归 -- 步骤
回归分析的步骤:
1、根据预测目标,确定自变量和因变量;
2、绘制散点图,确定回归模型类型;
3、估计模型参数,建立回归模型;
4、对回归模型进行检验;
5、利用回归模型进行预测;
线性回归 -- 一元线性回归
一元回归的主要任务是从两个相关变量中的一个变量去估计另一个变量,被估计的变量,称因变量,可设为;估计出的变量,称自变量,设为。回归分析就是要找出一个数学模型,使得从估计可以用一个函数式去计算。当的形式是一个直线方程时,称为一元线性回归。这个方程一般可表示为。根据最小平方法或其他方法,可以从样本数据确定常数项与回归系数的值。、确定后,有一个的观测值,就可得到一个的估计值。回归方程是否可靠,估计的误差有多大,都还应经过显著性检验和误差计算。有无显著的相关关系以及样本的大小等等,是影响回归方程可靠性的因素。
现实世界中的数据总是存在各种误差,比如测量工具的误差,人度数的误差等等。而且数据的产生也大部分是一个随机的过程。所以如果现实世界中存在某些线性关系,那么这个关系也一定是近似的。所以其一次函数其实是这样的:
其中是数据偏离线性的误差,这个误差是服从正态分布的。什么!你还不知道什么是正态分布?那请先学习下相关知识。就是因为这个的存在,所以对于每一组数据,他们的误差都是不同的,所以在前面那个式子中,我们不能使用待定系数法求得尽量精确的解。所以就需要一个更高端的做法。
先不考虑怎么做的话,我们既然知道有这个误差存在了,那么我们就应该让这个误差尽量减小,数据已经是确定好了的,我们只能在计算方法上做文章。这里移项可以得到误差的方程:
所以现在我们就应该想方法,利用已知的来找的合适的,使 的和对于所有的已知点最小,这就是线性回归的思路。下面介绍具体方法。
线性回归的方法
为了求解出最小的 ,我们可以其实可以利用平方消去其中的绝对值符号,得到了我们的要求的式子:
为了取到最小的S,我们可以对上式分别对和求偏导,并令它们为,以求的S的极值,即:
根据这个式子,可以知道偏导数的图像(如左图)和原函数随或者变化的图像(类似于右图)
所以可以说,当这两个偏导数都取到的时候,就是误差