数学建模算法笔记(4)——线性回归和最小二乘法

1.2 数据的标准化处理
标准化处理 所谓对数据的标准化处理,是指对数据同时进行中心化-压缩处理,即
在这里插入图片描述

一元线性回归
模型: 在这里插入图片描述, ε 是随机误差项,总是假设ε ~N (0 ,σ2),则随机变量,i不等于j时,εi εj相互独立

最小二乘估计方法
在这里插入图片描述
在这里插入图片描述

,当 xi yi都是标准化数据时,则有 x(平均)=0, y(平均)=0 ,sx=1,sy=1。,对标准化数据, 1 ˆ β可以表示 y 与 x的相关程度

回归系数的性质
1 . ˆ β1是 yi 的线性组合,它可以写成在这里插入图片描述 在这里插入图片描述
2 .因为 1 ˆ β是随机变量 y i的线性组合,而 yi 是相互独立、且服从正 态分布的,所以, 1 ˆ β 的抽样分布也服从正态分布。
3.点估计量 1 ˆ β 是总体参数 1 β 的无偏估计
4.估计量 1 ˆ β的方差为 在这里插入图片描述
5.对于总体模型中的参数 1 β,在它的所有线性无偏估计量中,小二乘估计量 1 ˆ β具有小的方差。且 0 ˆ β是 0 β的线性无偏的小方差估计量。

其它性质
1. 残差和为零。 残差
2. 拟合值 i y ˆ 的平均值等于观测值 i y 的平均值
3 .当第i次试验的残差以相应的自变量取值为权重时,其加权残差和为零 在这里插入图片描述
4 .当第i次试验的残差以相应的因变量的拟合值为权重时,其加权残差和为零
在这里插入图片描述
5.小二乘回归线总是通过观测数据的重心(x(平均),y(平均))的
拟合效果分析
残差的样本方差MSE
在这里插入图片描述
一个好的拟合方程,其残差总和应越小越好。
判定系数(拟合优度)
在这里插入图片描述

(1)SSR 越大,用回归方程来解释 i y 变异的部分越大,回归方程对原数据解释得 越好; (2)SSE 越小,观测值 i y 绕回归直线越紧密,回归方程对原数据的拟合效果越好。
在这里插入图片描述
R2 又等于 y 与拟合变量 y ˆ 的相关系数平方,而相关系数的正、负号与回归系数 1 ˆ β
的符号相同
显著性检验
 回归模型的线性关系检验
假设 y=β0+β1*x+ε
H0:β1=0
检验统计量:F=(SSR/1)/(SSE/(n-2)) ~ F(1,n-2)

 回归系数的显著性检验
(检验每一个总体参数是否显著不为零)
H0:β1=0
检验统计量:~t(n-2) (β0同理)

多元线性回归
模型 在这里插入图片描述
参数估计在这里插入图片描述

统计分析
(i) β ˆ 是β 的线性无偏小方差估计
(ii) 在这里插入图片描述
(iii) 在这里插入图片描述
(iv) SST=Q+U 在这里插入图片描述
回归模型的假设检验
H0:βj=0 (j=1,…,m)
检验统计量 F=(U/m)/(Q/(n-m-1))~F(m,n-m-1)

R2=U/SST R 大于0.8(或 0.9)才认为相关关系成立
回归系数的假设检验和区间估计
(当上面的 H0 被拒绝时, βj不全为零,但是不排除其中若干个等于零)
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
( s=sqrt(Q/(n-m-1)) )
利用回归模型进行预测
,但当n 较大且x0i 接近平均值 xi 时, y0 的预测区间可简化为在这里插入图片描述

对 y0 的区间估计方法可用于给出已知数据残差ei=yi-^yi 的置信区间,, e i 服从均值为零的正态分布,所以若某个 e i 的置信区间不包含零点,则认为这个 数据是异常的,可予以剔除。

  • 1
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值