ARA-week2

Linear Regression 线性回归
最小二乘法得到的 β0 β1 的估计:
β^1=covˆ(x,y)Varˆ(x) β^0=Y¯¯¯β^1X¯¯¯
β^1 的计算式: β^1=xiyixiyinx2i(xi)2n
全都由样本数据构成,便于计算。

得到的回归方程可以写成: y^=β^0+β^1x
也可以写成这种形式: y^=a+b(xX¯¯¯)

对于散点 (x,y) 而言,第一个变量 x 是依赖变量(dependent variable),第二个变量y是独立变量(independent variable)。
Error Sum of Squares: SSE=i=1n(yiy^i)2

homoscedasticity
即对于每一个 x 而言,y的方差是一样的。即 σ2y|xi=σ2y|xj=σ2
对于 σ2 的估计如下:
s2y|x=1n2i=1n(yiy^i)2=n1n2(s2yβ^2is2x) ()
这里的分母是 n2 是因为计算 β^0 β^1 时用去了两个自由度。
() 中的 β^i=0 ,表明给定 x 情况下y的方差,和 y 的方差一致(有一个因子n1n2的差异), x 不能帮助减小y的方差。即 x 无法增加y的数据使用者对数据的准确度信心。
() 式,标准误SEE(Standard Error of Estimate)即为 sy|x
这里 s2x=i=1n(xix^i)2n1 s2y=i=1n(yiy^i)2n1

对于任意给定的 x ,假定y服从正态分布,我们可以对 β0 β1 进行假设检验和建立置信区间。这里:
β^0N(β0,σ2(1n+X¯2(n1)s2x)) (0)
β^1N(β1,σ2(n1)s2x) (1)
因为我们没有 σ2 的值,因此用 () 中的 s2y|x 替代。使用自由度为 n2 t 分布。

1.首先考虑β1
假定
零假设: H0:β1=0
备择假设: Ha:β10
根据 (1) 式计算出 t 统计量:t=β^1β(0)1sy|xsxn1
如果 |t|>t1α2(n2) ,在 α 的程度拒绝 H0 (此时 p<0.001
这里的零假设是指假定斜率为0,即 x y之间不存在线性关系。若拒绝0假设,则表明 x 为预测y提供了重要的信息,表明线性回归得到的模型比预测 y 的naive model(即对所有的x用均值 Y¯¯¯ 来估计)要好得多,但这也可能存在更好的模型(例如非线性模型,可能对数据拟合的更好)。
同时,如果零假设没有被拒绝可能表明:1. x 对于预测y没有帮助。2. x y之间的真实模型不是线性的。

置信区间为: β^1t1α2[sy|xsxn1]β1β^1+t1α2[sy|xsxn1]

2.再考虑 β0
0假设: H0:β0=β(0)0
根据 (0) 式计算 t 统计量:t=β^0β(0)0sy|x1n+X¯2(n1)s2x
tt(n2)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值