回归基础

回归基础概念

回归分析:在统计学中,回归分析(regression analysis)指的是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。回归分析按照涉及的变量的多少,分为一元回归和多元回归分析;按照因变量的多少,可分为简单回归分析和多重回归分析;按照自变量因变量之间的关系类型,可分为线性回归分析和非线性回归分析。

在初等数学中,一元一次函数y=kx+b是一种理想的线性关系。在知道两个点(x, y)时,采用待定系数法就能够求解出系数k和b。而现实中的很多数据和样品,并不存在这样理想的线性关系,但是他们之间存在一种近似的线性关系,可以表示为y=kx+b+e。其中e是数据偏离线性的误差,这个误差是服从正态分布的。就是因为这个e的存在,所以对于每一组数据(x,y),他们的误差都是不同的。要求解出这个公式y=kx+b+e,就需要计算出固定系数k和b,同时使得随机误差e尽量小,才是最能满足已知数据之间的关系的。

|e|=|y−kx−b|,此处,利用已知的(x,y)来找的合适的k,b使|e|的和对于所有的已知点最小,这就是线性回归的思路。当然此处评价误差最小的方式有多种,并一定是求|e|的和,也存在其他的方式,比如方差、均方差等。

 

一元线性回归模型

y = a + bx + ε    称为变量y对x的一元线性回归理论模型。一般称y为被解释变量(因变量),x为解释变量(自变量),a和b为回归系数,ε是随机变量。通常ε应该满足期望为0,同时方差尽可能小。如下式所示:

E(ε) = 0  可以理解为 ε 对 y 的总体影响期望为 0,若 E(ε) = 变量,则说明 ε 在不同的 x 下对 y 的影响不同,那么说明存在其他变量也对 y 有显著作用。Var(ε) = σ2:因为所有的样本点并不是完全在回归直线上(即 x 与 y 的关系不是确定的函数关系),所以 ε 的方差一定不为0。

 

一元线性回归模型拟合度的评价

离差平方和RSS将公式y = a + bx + ε改写为\hat{y} = a + bx, 也就是\hat{y} 为理论值,是根据回归模型和给定的自变量x计算得到的结果,不包含误差项。最理想的回归直线应该尽可能从整体来看最接近各实际观察点,即散点图中各点到回归直线的垂直距离,即因变量的实际值。下面所讲到的所有^y{_{i}} 对应的是同一个x的不同观测值。应该也可以描述不同自变量下的观测值,注意不同自变量下的观测值,其均值是不一样的,在计算后面TSS和ESS时,不能混用。

 ^y{_{i}}  与相应的回归估计值\hat{y} 的离差整体来说为最小。由于离差有正有负,正负会相互抵消,通常采用观测值与对应估计值之间的离差平方总和来衡量全部数据总的离差大小。

上述公式的结果实际就是前面所描述的随机变量ε的方差最小。

总平方和TSS:total sum of square,所有观测值与观测平均值之差的平方。反应的是所有观测值的方差,也就是同一个x下所有观测值的分布。

回归平方和ESS: Explained Sum of Squares,所有理论计算值与观测平均值之差的平方。原则上一个自变量x只有一个理论值,此处的回归平方和是否是一个相对确定的值?当拿来评价不同自变量x下的y时,就有了不同的均值和不同的理论值。

根据上面的计算可以得到,ESS + RSS = TSS。R^{2} = ESS/TSS, 称为拟合优度。是指回归直线对观测值得拟合程度。R^{2}的取值范围是[0,1], 值越接近1,则说明回归直线对观测值得拟合程度越好。

最小二乘法计算回归系数

根据上式的准则来估计回归方程系数a和b的方法称为最小平方法最小二乘

利用微分法求函数极值的原理,即可得到满足式离差平方和最小的两个正规方程:

解上述方程可以求得a和b。通常将a和b的计算公式写为如下形式:

 

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值