目录
回归:数据有“回归到平均数的趋势”
回归分析研究因变量和自变量的关系(完全确定关系,有一定关系但无法确定,这是我们研究的主题)
最小二乘法
最小二乘法(又称最小平方法)是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。
利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小。
背景故事
追溯到1801年,意大利天文学家朱赛普·皮亚齐发现了第一颗小行星谷神星。经过40天的跟踪观测后,由于谷神星运行至太阳背后,使得皮亚齐失去了谷神星的位置。随后全世界的科学家利用皮亚齐的观测数据开始寻找谷神星,但是根据大多数人计算的结果来寻找谷神星都没有结果。
结论
最小二乘法主要思想就是选择未知参数,使得理论值与观测值之差的平方和达到最小:
原理及推导过程
下面我们来看一下最简单的线性情况。
如下图所示,对于某个数据集(xi, yi) (i=0,1,…,n),我们需要找到一条趋势线(图中的虚线),能够表达出数据集(xi, yi)这些点所指向的方向。
我们先用一个直线函数表示这条趋势线:
Y=aX+b
数据集的点一定位于这条趋势线的上下两侧,或者与趋势线重合。我们把某个样本点xi到这条趋势线的垂直距离定义为残差ξi,那么过这一点与趋势线平行的样本函数为yi=axi+b+ξi。如果这个样本点位于趋势线的上侧,在残差ξi>0,反之则ξi<0,如果样本点位于趋势线上则ξi=0。
现在,我们求解这条趋势线。因为是线性函数,所以也就是求解a、b这两个值。
下面我们将带有残差的直线函数修改为下面的形式:
ξi=yi-axi-b
因为残差ξi有正负号的问题,所以我们统一用平方和来计算,即残差平方和:
那么现在的目标是求误差平方和Q最小的问题,实质是求一组a,b使其最小
很明显这个二次函数是一个凸函数(单峰函数),我们接下来对该函数求极值,即它的一阶导数等于0。
即两个方程组求解两个未知数,接下来,将两个方程联立,可求得a,b。
一元线性回归模型
概念介绍:一元线性回归只考虑一个因变量Y和一个自变量X的关系
R:
在不知道的情况下,可以先看看两个变量是否有关系
>forbes<-read.table("文件名称",header=T) //读取一个文件