算法学习Task4

回归分析
一元 线性回归模型

ε服从正态分布N(0,σ^2)为随机误差,x为自变量即测量值(假设没有误差),y为因变量(其测量值也没有误差),β为系数,如果利用该模型来预测y的值,则y由于随机误差的存在服从正态分布N(β0+βx,σ2)
下面就其系数的求法及性质和分析进行简要说明
最小二乘估计法:
确定系数,使yi 与 β0+βxi的误差平方和达到最小

即使得Q(β0,β1)的值最小,根据偏导数等于0求得

另一种表述形式

若x,y经过标准化,则
(标准化分为中心化和无量纲化,中心化就是通过坐标变换,使得样本均值为零,通常用xi‘=xi-mean(x)来处理,无量纲化)

从而

首先,教材上说β1可以看成随机变量,但我想从我们概率课上的角度对一下性质进行证明:
1、β1可以看成yi的线性组合

可根据前面的β1求法证明
2、(无偏性)

3、最小二乘β1具有最小方差(有效性)
注:以上3个形式β0也是具有的
4、残差和为0
5、拟合值的均值等于观测值的均值
6、当第i 次试验的残差以相应的自变量取值为权重时,其加权残差和为零
7、当第i 次试验的残差以相应的因变量的拟合值为权重时,其加权残差和为零
8、误差的样本方差是对ε中σ^2的无偏估计可用于确定随机误差项
一个好的拟合方程,其残差总和应越小越好。残差越小,拟合值与观测值越接近,各观测点在拟合直线周围聚集的紧密程度越高。
判定系数(拟合优度)
SST=SSR+SSE
SSE为样本残差的方差,SSR拟合方程可解释变异的平方和,SST为原始数据总变异平方和,显然SSR越大越好,由于对于给定的样本SST是确定的,所以,R^2=SSR/SST来表示拟合优度

另外有趣的是R^2就是x,y相关系数的平方

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值