面试题目及最佳答案，二、简单线性回归模型，Python开发者出路在哪

JavaScript高级

于 2024-04-09 06:03:30 发布

阅读量438

点赞数 10

分类专栏： 2024年程序员学习文章标签：线性回归 python 算法

本文链接：https://blog.csdn.net/m0_60388419/article/details/137533106

版权

2024年程序员学习专栏收录该内容

272 篇文章 0 订阅

订阅专栏

β 1 ^ = Y ‾ − β 2 ^ X ‾ \hat{β_1}=\overline{Y}-\hat{β_2}\overline{X} β1^=Y−β2X

2.3OLS回归性质

用普通最小二乘法拟合的样本回归线有以下性质

样本回归线通过样本均值。
估计值 Y i ^ \hat{Y_i} Yi^的均值 Σ Y i ^ n \frac{Σ\hat{Y_i}}{n} nΣYi^等于实际 Y i Y_i Yi的均值。
剩余项 e i e_i ei的均值的为0。
被解释变量估计值 Y i ^ \hat{Y_i} Yi^与剩余项 e i e_i ei不相关。
解释变量 X i X_i Xi与剩余项 e i e_i ei不相关。

2.4最小二乘估计量的统计性质

2.4.1 参数估计量的评价标准

选择参数估计量时应考虑以下一些标准：

1.无偏性

如果参数的估计量 β ^ \hat{β} β^的期望等于参数的真实值β，即 E ( β ^ ) = β E(\hat{β})=β E(β^)=β，则称 β ^ \hat{β} β^是参数β的无偏估计量。

如果参数估计量 β ∗ β^* β∗是期望值不等于参数β的真实值，则称 β ∗ β^* β∗是有偏的，其偏倚为 E ( β ∗ ) − β E(β^*)-β E(β∗)−β，也称系统误差。无偏即无系统误差。

计量经济研究中应尽可能寻找符合无偏性要求的参数估计量。

2.有效性

一个估计量若不仅有无偏性，而且具有最小方差性，则称这个估计量为有效估计量。

即对于参数β的无偏估计量 β ^ \hat{\beta} β^，如果对于参数的任意一个无偏估计量 β ∗ \beta^* β∗，都有 V a r ( β ^ ) ≤ V a r ( β ∗ ) Var(\hat{β})≤Var(β^*) Var(β^)≤Var(β∗)，则称 β ^ \hat{β} β^是参数β的有效估计量。

或者说， β ^ \hat{β} β^较 β ∗ β^* β∗有效。

3.一致性

样本容量趋于无穷大时，如果估计量， β ^ \hat{β} β^的抽样分布依概率收敛于总体参数真实值β，即

P lim ⁡ n → ∞ β ^ = β P \displaystyle \lim_{n \rightarrow \infty} \hat{\beta}=β Pn→∞limβ^=β

或 lim ⁡ n → ∞ P [ ( ∣ β ^ − β ∣ ) ＜ ε ] = 1 \displaystyle \lim_{n \rightarrow \infty}P[(|\hatβ-β|)＜ε]=1 n→∞limP[(∣β^−β∣)＜ε]=1

也就是说，当样本容量n→∞时，估计量 β ^ \hat{β} β^与总体参数真实值β的距离 β ^ − β \hat{β}-β β^−β的绝对值小于任意给定正数ε的概率等于1，则称估计量 β ^ \hat{β} β^为一致估计量。

（也称相合性，相合估计量）

2.4.2OLS估计量的统计特性

在古典假定完全满足的情况下，回归模型参数的最小二乘估计量具有以下统计性质。

1.线性特性

由 β 2 ^ = x i y i x i 2 \hat{β_2}=\frac{x_iy_i}{x_i^2} β2^=xi2xiyi，详细过程略

可以有 β 2 ^ = Σ k i Y i \hat{β_2}=Σk_iY_i β2^=ΣkiYi，其中 k i k_i ki是一组常数，所以 β 2 ^ \hat{β_2} β2^是 Y i Y_i Yi的线性相关函数。

类似也有， β 1 ^ \hat{β_1} β1^是 Y i Y_i Yi的线性相关函数。

2.无偏性

E ( β 2 ^ ) = β 2 E(\hat{β_2})=β_2 E(β2^)=β2

E ( β 1 ^ ) = β 1 E(\hat{β_1})=β_1 E(β1^)=β1

这表明最小二乘法估计的参数 β 1 β_1 β1和 β 2 β_2 β2的期望值等于总体回归函数参数的真实值 β 1 β_1 β1和 β 2 β_2 β2，所以OLS估计式是无偏估计量。

3.有效性

普通最小二乘估计 β 1 ^ \hat{β_1} β1^和 β 2 ^ \hat{β_2} β2^具有最小的方差。证明过程略。

也可以用标准误差度量估计量的精确性，标准误差(standard error)是方差的平方根，可以用SE表示。

V a r ( β 2 ^ ) = σ 2 Σ x i 2 Var(\hat{β_2})=\frac{σ^2}{Σx_i2} Var(β2^)=Σxi2σ2

V a r ( β 1 ^ ) = σ 2 ∑ X i 2 n ∑ x i 2 Var(\hat{β_1})=σ^2 \frac{\sum{X_i^2}}{n \sum{x_i^2}} Var(β1^)=σ2n∑xi2∑Xi2

S E ( β 2 ^ ) = σ ∑ x i 2 SE(\hat{β_2})=\frac{σ}{\sqrt{\sum x_i^2}} SE(β2^)=∑xi2 σ

S E ( β 1 ^ ) = σ ∑ X i 2 n ∑ x i 2 SE(\hat{β_1})=σ \sqrt{\frac{\sum X_i^2}{n \sum x_i^2}} SE(β1^)=σn∑xi2∑Xi2

其中 σ 2 σ^2 σ2作为总体随机扰动项 u i u_i ui的方差是未知的，也需要通过样本估计。

用 σ 2 ^ = ∑ e i 2 n − 2 \hat{σ^2}=\frac{\sum e_i^2}{n-2} σ2^=n−2∑ei2计算的 σ 2 σ^2 σ2的估计值 σ 2 ^ \hat{σ^2} σ2^是对 σ 2 σ^2 σ2的无偏估计。

e i 2 e_i^2 ei2是剩余平方和；n-2是自由度。

综上，OLS估计量 β 1 ^ \hat{β_1} β1^和 β 2 ^ \hat{β_2} β2^是总体参数 β 1 β_1 β1和 β 2 β_2 β2的最佳线性无偏估计量。(Best linear unbiased estimator,BLUE)。这个结论也称高斯-马尔可夫定理。

③拟合优度的度量

==============================================================================

所估计样本回归线对样本观测数据拟合的优劣程度，称为样本回归线的拟合优度。

3.1总变差的分解

被解释变量Y的样本观测值与其平均值的离差平方和 ∑ ( Y i − Y ‾ ) 2 = ∑ y i 2 \sum{(Y_i-\overline{Y})^2}=\sum{y_i2} ∑(Yi−Y)2=∑yi2，称为总变差或总离差平方和(total sum of squares)。用TSS表示。
被解释变量Y的样本估计值与其平均值的离差平方和 ∑ ( Y i ^ − Y ‾ ) 2 = ∑ y i ^ 2 \sum{(\hat{Y_i}-\overline{Y})}^{2=\sum{\hat{y_i}}2} ∑(Yi^−Y)2=∑yi2，称为回归解释平方和。是由模型回归线作出解释的变差，用ESS表示。
被解释变量观测值与估计值之间的平方和 ∑ ( Y i − Y i ^ ) 2 = ∑ e i 2 \sum{(Y_i-\hat{Y_i})}^2= \sum{e_i^2} ∑(Yi−Yi^)2=∑ei2，是回归线未作出解释的平方和，称为残差平方和(residualc sum of squares)，用RSS*表示。(未解释平方和)

三者关系：

TSS=ESS+RSS

∑ ( Y i − Y ‾ ) 2 = ∑ ( Y i ^ − Y ‾ ) 2 + ∑ ( Y i − Y i ^ ) 2 \sum{(Y_i-\overline{Y})}^{2=\sum{(\hat{Y_i}-\overline{Y})}}2+\sum{(Y_i-\hat{Y_i})}^2 ∑(Yi−Y)2=∑(Yi^{−Y)2+∑(Yi−Yi})2

∑ y i 2 = ∑ y i ^ 2 + ∑ e i 2 \sum{y_i^{2}=\sum{\hat{y_i}}2}+\sum{e_i^2} ∑yi2=∑yi^2+∑ei2

3.2可决系数

TSS=ESS+RSS

1 = E S S T S S + R S S T S S = 解释平方和的权重 + 未解释平方和的权重 1 = \frac{ESS}{TSS}+\frac{RSS}{TSS}=解释平方和的权重+未解释平方和的权重 1=TSSESS+TSSRSS=解释平方和的权重+未解释平方和的权重

其中解释平方和的权重可以作为综合度量回归模型对样本观测值拟合优度的指标，这一比例成为可决系数。在简单线性回归中一般用 r 2 r^2 r2或 R 2 R^2 R2表示，即

R 2 = ∑ ( Y i ^ − Y ‾ ) 2 ∑ ( Y i − Y ‾ ) 2 = y i 2 ^ y i 2 R^{2=\frac{\sum{(\hat{Y_i}-\overline{Y})}}2}{\sum{(Y_i-\overline{Y})}^{2}=\frac{\hat{y_i}2}}{y_i^2} R2=∑(Yi−Y)2∑(Yi^{−Y)2=yi2yi2}

或 R 2 = 1 − ∑ ( Y i − Y i ^ ) 2 ∑ ( Y i − Y ‾ ) 2 = 1 − ∑ e i 2 ∑ y i 2 R^{2=1-\frac{\sum{(Y_i-\hat{Y_i})}}2}{\sum{(Y_i-\overline{Y})^{2}}=1-\frac{\sum{e_i}2}}{\sum{y_i^2}} R2=1−∑(Yi−Y)2∑(Yi−Yi^)2=1−∑yi2∑ei2

3.3可决系数与相关系数的关系

一元线性回归中，可决系数 R 2 R^2 R2在数值上，是简单线性相关系数r的平方。即

r = ± R 2 r=± \sqrt{R^2} r=±R2

但二者在概念上是明显区别的。

r X Y = ∑ ( X i − X ‾ ) ( Y i − Y ‾ ) ∑ ( X i − X ‾ ) 2 ∑ ( Y i − Y ‾ ) 2 r_{XY}=\frac{\sum(X_i-\overline X)(Y_i-\overline Y)}{\sqrt{\sum{(X_i-\overline{X})^2} \sum{(Y_i-\overline Y)^2}}} rXY=∑(Xi−X)2∑(Yi−Y)2 ∑(Xi−X)(Yi−Y)

R 2 = [ ∑ ( X i − X ‾ ) ( Y i − Y ‾ ) ] 2 ∑ ( X i − X ‾ ) 2 ∑ ( Y i − Y ‾ ) 2 R^2=\frac{[\sum(X_i-\overline X)(Y_i-\overline Y)]^{2}{\sum{(X_i-\overline{X})}2} \sum{(Y_i-\overline Y)^2}} R2=∑(Xi−X)2∑(Yi−Y)2[∑(Xi−X)(Yi−Y)]2

可决系数取值范围为 0 ≤ R 2 ≤ 1 0≤R^2≤1 0≤R2≤1；不相关系数可正可负，取值范围为 − 1 ≤ r ≤ 1 -1≤r≤1 −1≤r≤1。

④回归系数的假设检验和区间估计

=====================================================================================

4.1 OLS估计的分布性质

在古典假定条件下，假定随机扰动项 u i u_i ui服从正态分布，则 Y i Y_i Yi也服从正态分布。

又因为 β 1 ^ \hat{β_1} β1^， β 2 ^ \hat{β_2} β2^都是 Y i Y_i Yi的线性函数，所以即使在小样本情况下， β 1 ^ \hat{β_1} β1^和 β 2 ^ \hat{β_2} β2^也服从正态分布。在大样本情况下，即使 Y i Y_i Yi不服从正态分布， β 1 ^ \hat{β_1} β1^和 β 2 ^ \hat{β_2} β2^也会趋于正态分布。

β 1 ^ \hat{β_1} β1^和 β 2 ^ \hat{β_2} β2^的具体分布可表示为：

β 1 ^ \hat{β_1} β1^~ N ( β 1 , σ 2 ∑ X i 2 n ∑ x i 2 ) N(β_1,σ^2 \frac{\sum{X_i^2}}{n \sum{x_i^2}}) N(β1,σ2n∑xi2∑Xi2)

β 2 ^ \hat{β_2} β2^~ N ( β 2 , σ 2 Σ x i 2 ) N(β_2,\frac{σ^2}{Σx_i2}) N(β2,Σxi2σ2)

将 β 1 ^ \hat{β_1} β1^和 β 2 ^ \hat{β_2} β2^做标准化转换：

z 1 = β 1 ^ − β 1 S E ( β 1 ^ ) z_1=\frac{\hat{β_1}-β_1}{SE(\hat{β_1})} z1=SE(β1^)β1−β1~ N ( 0 , 1 ) N(0,1) N(0,1)

自我介绍一下，小编13年上海交大毕业，曾经在小公司待过，也去过华为、OPPO等大厂，18年进入阿里一直到现在。

深知大多数Python工程师，想要提升技能，往往是自己摸索成长或者是报班学习，但对于培训机构动则几千的学费，着实压力不小。自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年Python开发全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友，同时减轻大家的负担。

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，基本涵盖了95%以上Python开发知识点，真正体系化！

由于文件比较大，这里只是将部分目录大纲截图出来，每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频，并且后续会持续更新

如果你觉得这些内容对你有帮助，可以添加V获取：vip1024c （备注Python）

最后

Python崛起并且风靡，因为优点多、应用领域广、被大牛们认可。学习 Python 门槛很低，但它的晋级路线很多，通过它你能进入机器学习、数据挖掘、大数据，CS等更加高级的领域。Python可以做网络应用，可以做科学计算，数据分析，可以做网络爬虫，可以做机器学习、自然语言处理、可以写游戏、可以做桌面应用…Python可以做的很多，你需要学好基础，再选择明确的方向。这里给大家分享一份全套的 Python 学习资料，给那些想学习 Python 的小伙伴们一点帮助！

👉Python所有方向的学习路线👈

Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。

👉Python必备开发工具👈

工欲善其事必先利其器。学习Python常用的开发软件都在这里了，给大家节省了很多时间。

👉Python全套学习视频👈

我们在看视频学习的时候，不能光动眼动脑不动手，比较科学的学习方法是在理解之后运用它们，这时候练手项目就很适合了。

👉实战案例👈

学python就与学数学一样，是不能只看书不做题的，直接看步骤和答案会让人误以为自己全都掌握了，但是碰到生题的时候还是会一筹莫展。

因此在学习python的过程中一定要记得多动手写代码，教程只需要看一两遍即可。

👉大厂面试真题👈

我们学习Python必然是为了找到高薪的工作，下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料，并且有阿里大佬给出了权威的解答，刷完这一套面试资料相信大家都能找到满意的工作。

一个人可以走的很快，但一群人才能走的更远。不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎扫码加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

真题👈

一个人可以走的很快，但一群人才能走的更远。不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎扫码加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！
[外链图片转存中…(img-DSI5z1xm-1712613799677)]

JavaScript高级

关注

10
点赞
踩
18

收藏

觉得还不错? 一键收藏
0
评论
面试题目及最佳答案，二、简单线性回归模型，Python开发者出路在哪

Python崛起并且风靡，因为优点多、应用领域广、被大牛们认可。学习 Python 门槛很低，但它的晋级路线很多，通过它你能进入机器学习、数据挖掘、大数据，CS等更加高级的领域。Python可以做网络应用，可以做科学计算，数据分析，可以做网络爬虫，可以做机器学习、自然语言处理、可以写游戏、可以做桌面应用…Python可以做的很多，你需要学好基础，再选择明确的方向。这里给大家分享一份全套的 Python 学习资料，给那些想学习 Python 的小伙伴们一点帮助！
复制链接

扫一扫

专栏目录