线性回归和独立性检验难点解析

1、线性回归方程的推导难点:

一组数据\((x_1,y_1),(x_2,y_2),\cdots,(x_n,y_n)\),则样本中心为\((\bar{x},\bar{y})\),其中\(\bar{x}=\cfrac{1}{n}\sum\limits_{i=1}^n{x_i}\)\(\bar{y}=\cfrac{1}{n}\sum\limits_{i=1}^n{y_i}\)

线性回归直线方程为:\(\widehat{y}=\widehat{b}x+\widehat{a}\)

具体计算公式,题目中往往直接给定;

\(\hat{b}=\cfrac{\sum\limits_{i=1}^n{(x_i-\bar{x})(y_i-\bar{y})}}{\sum\limits_{i=1}^n{(x_i-\bar{x})^2}}\)

\(=\cfrac{\sum\limits_{i=1}^n{x_iy_i-n\cdot\bar{x}\cdot\bar{y}}}{\sum\limits_{i=1}^n{x_i^2-n\cdot\bar{x}^2}}\)

\(\hat{a}=\bar{y}-\hat{b}\cdot\bar{x}\).

  • 上述公式中的部分变形说明:

\[\begin{align*}\sum\limits_{i=1}^n{(x_i-\bar{x})(y_i-\bar{y})}&=\sum\limits_{i=1}^n{(x_iy_i-x_i\bar{y}-\bar{x}y_i+\bar{x}\bar{y})}\\&=\sum\limits_{i=1}^n{x_iy_i}-\bar{y}\sum\limits_{i=1}^n{x_i}-\bar{x}\sum\limits_{i=1}^n{y_i}+\bar{x}\bar{y}\sum\limits_{i=1}^n{1}\\&=\sum\limits_{i=1}^n{x_iy_i}-n\bar{x}\bar{y}-n\bar{x}\bar{y}+n\bar{x}\bar{y}\\&=\sum\limits_{i=1}^n{x_iy_i}-n\bar{x}\bar{y}\end{align*}\]

仿照这个推导思路,你能推导$\sum\limits_{i=1}^n{(x_i-\bar{x})^2}=\sum\limits_{i=1}^n{x_i^2-n\bar{x}^2} $吗?

2、独立性检验中的表格的解读:

992978-20180806111814188-150517512.png

  • 独立性检验的数学原理:

\(H_0:\)先假设两个变量\(A\)\(B\)是无相关关系的,\(\chi^2\)的观测值\(k_0\)越大,则与之对应的假设事件\(H_0\)成立的概率越小,那么\(H_0\)不成立的概率越大,即两个变量相关的概率越大。

  • 使用实例:比如计算得到\(\chi^2=8\),则有\(8>7.897\),而7.897对应概率值为0.005,故有\(1-0.005=99.5\%\)以上的把握认为“两个变量有关”,但还是有低于\(0.5\%\)的判断出错可能性,并不是百分之百。

3、线性回归计算中的几点技巧的验证

【例题】某公司第二、第三季度的用电量与月份线性相关,数据统计如下:

月份\(x\)456789
用电量\(y\)61627554656

【问题】此题目需要先剔除无效数据\((7,55)\)

1、能不能直接利用数据进行计算?

2、能不能对数据先做预处理,即每一组数据都减去\((6,27)\)

3、能不能对数据先做预处理,即每一组数据都减去\((6,16)\)

4、能不能对数据先做预处理,即每一组数据都减去\((\overline{x},\overline{y})\)

数学实验验证

4、典例剖析

例1【对统计大数据的预处理】【2019高三理科数学第二次月考第18题】

某地随着经济发展,居民收入逐年增长,下表是该地一建设银行连续五年的储蓄存款(年底余额),如下表1:

年份\(x\)20112012201320142015
储蓄存款\(y\)(千亿元)567810

为便于计算,将上表做以处理,令\(t=x-2010\)\(z=y-5\),得到下表2:

时间代号\(t\)12345
\(z\)01235

附可能用到的公式:线性回归直线为\(\widehat{y}=\widehat{b}x+\widehat{a}\)

\(\widehat{b}=\cfrac{\sum\limits_{i=1}^n{(x_i-\bar{x})(y_i-\bar{y})}}{\sum\limits_{i=1}^n{(x_i-\bar{x})^2}}=\cfrac{\sum\limits_{i=1}^n{x_iy_i-n\cdot\bar{x}\cdot\bar{y}}}{\sum\limits_{i=1}^n{x_i^2-n\cdot\bar{x}^2}}\)

\(\widehat{a}=\bar{y}-\widehat{b}\cdot\bar{x}\).

(1)求\(z\)关于\(t\)的线性回归方程。

分析:需要先注意\(z\rightarrow y\;\;\)\(t\rightarrow x\;\;\),然后将所给的公式翻译为关于\(z\)\(t\)的公式,这涉及到数学素养,公式的正向迁移。

由表格可知,\(\bar{t}=3\)\(\bar{z}=2.2\)\(\sum\limits_{i=1}^5{t_iz_i}=45\)\(\sum\limits_{i=1}^5{t_i^2}=55\)

\(\widehat{b}=\cfrac{\sum\limits_{i=1}^n{t_iz_i-n\cdot\bar{t}\cdot\bar{z}}}{\sum\limits_{i=1}^n{t_i^2-n\cdot\bar{t}^2}}\)

\(=\cfrac{45-5\times 3\times 2.2}{55-5\times 9}=1.2\)

\(\widehat{a}=\bar{z}-\widehat{b}\cdot\bar{t}=2.2-3\times 1.2=-1.4\)

\(\hat{z}=1.2t-1.4\)

(2)通过(1)中的方程,求出\(y\)关于\(x\)的线性回归方程。

分析:将\(t=x-2010\)\(z=y-5\)代入\(\hat{z}=1.2t-1.4\)

得到\(y-5=1.2\times (x-2010)-1.4\)

\(\hat{y}=1.2x-2408.4\)

(3)用所求的线性回归方程预测,到\(2020\)年底,该地的储蓄存款余额可达到多少?

分析:当\(x=2020\)时,代入\(\hat{y}=1.2x-2408.4\)

得到\(\hat{y}=1.2\times 2020-2408.4=15.6(千亿元)\)

例2【2017-18高三理科高考冲刺模拟试题9第15题】

已知由样本数据点集合\(\{(x_i,y_i)\mid i=1,2,\cdots,n\}\)求得的回归直线方程为\(\hat{y}=1.5x+0.5\),且\(\bar{x}=3\),现发现两个数据点\((1.1,2.1)\)\((4.9,7.9)\)误差较大,去除后重新求得的回归直线\(l\)的斜率为\(1.2\),那么,当\(x=2\)时,\(y\)的估计值是______。

分析:由于样本中心点\((\bar{x},\bar{y})\)必在回归直线上,先代入计算得到\(\bar{y}=5\)

即原数据的样本中心点为\((3,5)\),故\(\sum\limits_{i=1}^{n}x_i=3n\)\(\sum\limits_{i=1}^{n}y_i=5n\)

由于\(1.1+4.9=6\)\(2.1+7.9=10\),去除两个样本点后,

新的样本中心点的坐标\(\bar{x}=\cfrac{3n-6}{n-2}=3\)\(\bar{y}=\cfrac{5n-10}{n-2}=5\)

故新的样本中心点\((3,5)\)必在回归直线\(\hat{y}=1.2x+b\)上,

则有\(5=1.2\times 3+b\),则\(b=1.4\)

即重新求得的回归直线\(l\)\(\hat{y}=1.2x+1.4\)

\(x=2\)时,代入计算得到\(\hat{y}=1.2\times 2+1.4=3.8\)

法2:特殊化策略,将样本数据点的个数认定为\(5\)个,其他的计算仿上完成。

转载于:https://www.cnblogs.com/wanghai0666/p/6627265.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值