先自我介绍一下,小编浙江大学毕业,去过华为、字节跳动等大厂,目前阿里P7
深知大多数程序员,想要提升技能,往往是自己摸索成长,但自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!
因此收集整理了一份《2024年最新Python全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友。
既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上Python知识点,真正体系化!
由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新
如果你需要这些资料,可以添加V获取:vip1024c (备注Python)
正文
满足此五个假设的线性回归模型,称为古典线性回归模型(CLRM)
其中四个假定,也可以用 Y i Y_i Yi表示:
对零均值假定有: E ( Y i ∣ X i ) = β 1 + β 2 X i E(Y_i|X_i)=β_1+β_2X_i E(Yi∣Xi)=β1+β2Xi
对同方差假定有: V a r ( Y i ∣ X i ) = σ 2 Var(Y_i|X_i)=σ^2 Var(Yi∣Xi)=σ2
对无自相关假定有: C o v ( Y i , Y j ) = 0 ( i ≠ j ) Cov(Y_i,Y_j)=0(i≠j) Cov(Yi,Yj)=0(i=j)
对正态性假定有: Y Y Y~ N ( β 1 + β 2 X i , σ 2 ) N(β_1+β_2X_i,σ^2) N(β1+β2Xi,σ2)
用产生样本概率最大的原则去确定样本回归函数,称为极大似然准则;
用估计剩余平方和最小的原则确定样本回归函数,称为最小二乘准则。
最小二乘法,也称最小二乘估计(OLS或OLSE)
最小二乘法使样本回归函数尽可能地接近总体回归函数,需满足最小二乘准则,使剩余平方和 Σ e i 2 Σe_i^2 Σei2最小。
即
m i n Σ e i 2 = m i n Σ ( Y i − Y i ^ ) 2 = m i n Σ ( Y i − β 1 ^ − β 2 ^ X i ) 2 minΣe_i2=minΣ(Y_i-\hat{Y_i})2=minΣ(Y_i-\hat{β_1}-\hat{β_2}X_i)^2 minΣei2=minΣ(Yi−Yi)2=minΣ(Yi−β1−β2^Xi)2
…
β 2 ^ = Σ ( X i − X ‾ ) ( Y i − Y ‾ ) Σ ( X i 2 − X ^ ) = x i y i x i 2 \hat{β_2}=\frac{Σ(X_i-\overline{X})(Y_i-\overline{Y})}{Σ(X_i2-\hat{X})}=\frac{x_iy_i}{x_i2} β2=Σ(Xi2−X)Σ(Xi−X)(Yi−Y)=xi2xiyi
β 1 ^ = Y ‾ − β 2 ^ X ‾ \hat{β_1}=\overline{Y}-\hat{β_2}\overline{X} β1=Y−β2X
用普通最小二乘法拟合的样本回归线有以下性质
-
样本回归线通过样本均值。
-
估计值 Y i ^ \hat{Y_i} Yi^的均值 Σ Y i ^ n \frac{Σ\hat{Y_i}}{n} nΣYi^等于实际 Y i Y_i Yi的均值。
-
剩余项 e i e_i ei的均值的为0。
-
被解释变量估计值 Y i ^ \hat{Y_i} Yi^与剩余项 e i e_i ei不相关。
-
解释变量 X i X_i Xi与剩余项 e i e_i ei不相关。
2.4.1 参数估计量的评价标准
选择参数估计量时应考虑以下一些标准:
1.无偏性
如果参数的估计量 β ^ \hat{β} β^的期望等于参数的真实值β,即 E ( β ^ ) = β E(\hat{β})=β E(β^)=β,则称 β ^ \hat{β} β^是参数β的无偏估计量。
如果参数估计量 β ∗ β^* β∗是期望值不等于参数β的真实值,则称 β ∗ β^* β∗是有偏的,其偏倚为 E ( β ∗ ) − β E(β^*)-β E(β∗)−β,也称系统误差。无偏即无系统误差。
计量经济研究中应尽可能寻找符合无偏性要求的参数估计量。
2.有效性
一个估计量若不仅有无偏性,而且具有最小方差性,则称这个估计量为有效估计量。
即对于参数β的无偏估计量 β ^ \hat{\beta} β^,如果对于参数的任意一个无偏估计量 β ∗ \beta^* β∗,都有 V a r ( β ^ ) ≤ V a r ( β ∗ ) Var(\hat{β})≤Var(β^*) Var(β^)≤Var(β∗),则称 β ^ \hat{β} β^是参数β的有效估计量。
或者说, β ^ \hat{β} β^较 β ∗ β^* β∗有效。
3.一致性
样本容量趋于无穷大时,如果估计量, β ^ \hat{β} β^的抽样分布依概率收敛于总体参数真实值β,即
P lim n → ∞ β ^ = β P \displaystyle \lim_{n \rightarrow \infty} \hat{\beta}=β Pn→∞limβ^=β
或 lim n → ∞ P [ ( ∣ β ^ − β ∣ ) < ε ] = 1 \displaystyle \lim_{n \rightarrow \infty}P[(|\hatβ-β|)<ε]=1 n→∞limP[(∣β^−β∣)<ε]=1
也就是说,当样本容量n→∞时,估计量 β ^ \hat{β} β^与总体参数真实值β的距离 β ^ − β \hat{β}-β β^−β的绝对值小于任意给定正数ε的概率等于1,则称估计量 β ^ \hat{β} β^为一致估计量。
(也称相合性,相合估计量)
2.4.2OLS估计量的统计特性
在古典假定完全满足的情况下,回归模型参数的最小二乘估计量具有以下统计性质。
1.线性特性
由 β 2 ^ = x i y i x i 2 \hat{β_2}=\frac{x_iy_i}{x_i^2} β2^=xi2xiyi,详细过程略
可以有 β 2 ^ = Σ k i Y i \hat{β_2}=Σk_iY_i β2^=ΣkiYi,其中 k i k_i ki是一组常数,所以 β 2 ^ \hat{β_2} β2^是 Y i Y_i Yi的线性相关函数。
类似也有, β 1 ^ \hat{β_1} β1^是 Y i Y_i Yi的线性相关函数。
2.无偏性
E ( β 2 ^ ) = β 2 E(\hat{β_2})=β_2 E(β2^)=β2
E ( β 1 ^ ) = β 1 E(\hat{β_1})=β_1 E(β1^)=β1
这表明最小二乘法估计的参数 β 1 β_1 β1和 β 2 β_2 β2的期望值等于总体回归函数参数的真实值 β 1 β_1 β1和 β 2 β_2 β2,所以OLS估计式是无偏估计量。
3.有效性
普通最小二乘估计 β 1 ^ \hat{β_1} β1^和 β 2 ^ \hat{β_2} β2^具有最小的方差。证明过程略。
也可以用标准误差度量估计量的精确性,标准误差(standard error)是方差的平方根,可以用SE表示。
V a r ( β 2 ^ ) = σ 2 Σ x i 2 Var(\hat{β_2})=\frac{σ2}{Σx_i2} Var(β2^)=Σxi2σ2
V a r ( β 1 ^ ) = σ 2 ∑ X i 2 n ∑ x i 2 Var(\hat{β_1})=σ^2 \frac{\sum{X_i^2}}{n \sum{x_i^2}} Var(β1^)=σ2n∑xi2∑Xi2
S E ( β 2 ^ ) = σ ∑ x i 2 SE(\hat{β_2})=\frac{σ}{\sqrt{\sum x_i^2}} SE(β2^)=∑xi2 σ
S E ( β 1 ^ ) = σ ∑ X i 2 n ∑ x i 2 SE(\hat{β_1})=σ \sqrt{\frac{\sum X_i^2}{n \sum x_i^2}} SE(β1^)=σn∑xi2∑Xi2
其中 σ 2 σ^2 σ2作为总体随机扰动项 u i u_i ui的方差是未知的,也需要通过样本估计。
用 σ 2 ^ = ∑ e i 2 n − 2 \hat{σ^2}=\frac{\sum e_i^2}{n-2} σ2^=n−2∑ei2计算的 σ 2 σ^2 σ2的估计值 σ 2 ^ \hat{σ^2} σ2^是对 σ 2 σ^2 σ2的无偏估计。
e i 2 e_i^2 ei2是剩余平方和;n-2是自由度。
综上,OLS估计量 β 1 ^ \hat{β_1} β1^和 β 2 ^ \hat{β_2} β2^是总体参数 β 1 β_1 β1和 β 2 β_2 β2的最佳线性无偏估计量。(Best linear unbiased estimator,BLUE)。这个结论也称高斯-马尔可夫定理。
==============================================================================
所估计样本回归线对样本观测数据拟合的优劣程度,称为样本回归线的拟合优度。
-
被解释变量Y的样本观测值与其平均值的离差平方和 ∑ ( Y i − Y ‾ ) 2 = ∑ y i 2 \sum{(Y_i-\overline{Y})2}=\sum{y_i2} ∑(Yi−Y)2=∑yi2,称为总变差或总离差平方和(total sum of squares)。用TSS表示。
-
被解释变量Y的样本估计值与其平均值的离差平方和 ∑ ( Y i ^ − Y ‾ ) 2 = ∑ y i ^ 2 \sum{(\hat{Y_i}-\overline{Y})}2=\sum{\hat{y_i}2} ∑(Yi−Y)2=∑yi2,称为回归解释平方和。是由模型回归线作出解释的变差,用ESS表示。
-
被解释变量观测值与估计值之间的平方和 ∑ ( Y i − Y i ^ ) 2 = ∑ e i 2 \sum{(Y_i-\hat{Y_i})}^2= \sum{e_i^2} ∑(Yi−Yi^)2=∑ei2,是回归线未作出解释的平方和,称为残差平方和(residualc sum of squares),用RSS*表示。(未解释平方和)
三者关系:
TSS=ESS+RSS
∑ ( Y i − Y ‾ ) 2 = ∑ ( Y i ^ − Y ‾ ) 2 + ∑ ( Y i − Y i ^ ) 2 \sum{(Y_i-\overline{Y})}2=\sum{(\hat{Y_i}-\overline{Y})}2+\sum{(Y_i-\hat{Y_i})}^2 ∑(Yi−Y)2=∑(Yi−Y)2+∑(Yi−Yi)2
∑ y i 2 = ∑ y i ^ 2 + ∑ e i 2 \sum{y_i2}=\sum{\hat{y_i}2}+\sum{e_i^2} ∑yi2=∑yi^2+∑ei2
TSS=ESS+RSS
1 = E S S T S S + R S S T S S = 解 释 平 方 和 的 权 重 + 未 解 释 平 方 和 的 权 重 1 = \frac{ESS}{TSS}+\frac{RSS}{TSS}=解释平方和的权重+未解释平方和的权重 1=TSSESS+TSSRSS=解释平方和的权重+未解释平方和的权重
其中解释平方和的权重可以作为综合度量回归模型对样本观测值拟合优度的指标,这一比例成为可决系数。在简单线性回归中一般用 r 2 r^2 r2或 R 2 R^2 R2表示,即
R 2 = ∑ ( Y i ^ − Y ‾ ) 2 ∑ ( Y i − Y ‾ ) 2 = y i 2 ^ y i 2 R2=\frac{\sum{(\hat{Y_i}-\overline{Y})}2}{\sum{(Y_i-\overline{Y})}2}=\frac{\hat{y_i2}}{y_i^2} R2=∑(Yi−Y)2∑(Yi−Y)2=yi2yi2
或 R 2 = 1 − ∑ ( Y i − Y i ^ ) 2 ∑ ( Y i − Y ‾ ) 2 = 1 − ∑ e i 2 ∑ y i 2 R2=1-\frac{\sum{(Y_i-\hat{Y_i})}2}{\sum{(Y_i-\overline{Y})2}}=1-\frac{\sum{e_i2}}{\sum{y_i^2}} R2=1−∑(Yi−Y)2∑(Yi−Yi^)2=1−∑yi2∑ei2
一元线性回归中,可决系数 R 2 R^2 R2在数值上,是简单线性相关系数r的平方。即
r = ± R 2 r=± \sqrt{R^2} r=±R2
但二者在概念上是明显区别的。
r X Y = ∑ ( X i − X ‾ ) ( Y i − Y ‾ ) ∑ ( X i − X ‾ ) 2 ∑ ( Y i − Y ‾ ) 2 r_{XY}=\frac{\sum(X_i-\overline X)(Y_i-\overline Y)}{\sqrt{\sum{(X_i-\overline{X})^2} \sum{(Y_i-\overline Y)^2}}} rXY=∑(Xi−X)2∑(Yi−Y)2 ∑(Xi−X)(Yi−Y)
R 2 = [ ∑ ( X i − X ‾ ) ( Y i − Y ‾ ) ] 2 ∑ ( X i − X ‾ ) 2 ∑ ( Y i − Y ‾ ) 2 R^2=\frac{[\sum(X_i-\overline X)(Y_i-\overline Y)]2}{\sum{(X_i-\overline{X})2} \sum{(Y_i-\overline Y)^2}} R2=∑(Xi−X)2∑(Yi−Y)2[∑(Xi−X)(Yi−Y)]2
可决系数取值范围为 0 ≤ R 2 ≤ 1 0≤R^2≤1 0≤R2≤1;不相关系数可正可负,取值范围为 − 1 ≤ r ≤ 1 -1≤r≤1 −1≤r≤1。
=====================================================================================
在古典假定条件下,假定随机扰动项 u i u_i ui服从正态分布,则 Y i Y_i Yi也服从正态分布。
又因为 β 1 ^ \hat{β_1} β1^, β 2 ^ \hat{β_2} β2^都是 Y i Y_i Yi的线性函数,所以即使在小样本情况下, β 1 ^ \hat{β_1} β1^和 β 2 ^ \hat{β_2} β2^也服从正态分布。在大样本情况下,即使 Y i Y_i Yi不服从正态分布, β 1 ^ \hat{β_1} β1^和 β 2 ^ \hat{β_2} β2^也会趋于正态分布。
β 1 ^ \hat{β_1} β1^和 β 2 ^ \hat{β_2} β2^的具体分布可表示为:
β 1 ^ \hat{β_1} β1^~ N ( β 1 , σ 2 ∑ X i 2 n ∑ x i 2 ) N(β_1,σ^2 \frac{\sum{X_i^2}}{n \sum{x_i^2}}) N(β1,σ2n∑xi2∑Xi2)
β 2 ^ \hat{β_2} β2^~ N ( β 2 , σ 2 Σ x i 2 ) N(β_2,\frac{σ2}{Σx_i2}) N(β2,Σxi2σ2)
将 β 1 ^ \hat{β_1} β1^和 β 2 ^ \hat{β_2} β2^做标准化转换:
z 1 = β 1 ^ − β 1 S E ( β 1 ^ ) z_1=\frac{\hat{β_1}-β_1}{SE(\hat{β_1})} z1=SE(β1)β1−β1~ N ( 0 , 1 ) N(0,1) N(0,1)
z 2 = β 2 ^ − β 2 S E ( β 2 ^ ) z_2=\frac{\hat{β_2}-β_2}{SE(\hat{β_2})} z2=SE(β2)β2−β2~ N ( 0 , 1 ) N(0,1) N(0,1)
β 1 ^ \hat{β_1} β1^和 β 2 ^ \hat{β_2} β2^的方差即标准正态变量 z 1 z_1 z1, z 2 z_2 z2的确定,都要涉及随机扰动项 u i u_i ui的方差 σ 2 σ^2 σ2,而总体随机扰动项 u i u_i ui是随机变量,其方差是未知的,只能通过 σ 2 ^ = ∑ e i 2 n − 2 \hat{σ^2}=\frac{\sum e_i^2}{n-2} σ2^=n−2∑ei2计算 σ 2 σ^2 σ2的无偏估计 σ 2 ^ \hat{σ^2} σ2^。
在大样本情况下,用无偏估计 σ 2 ^ \hat{σ^2} σ2^替代 σ 2 σ^2 σ2,可计算参数估计值的标准误差,这个时候标准化后的 z 1 z_1 z1, z 2 z_2 z2仍可视为标准正态分布变量。
小样本情况下,其不再服从正态分布,而是服从自由度为n-2的t分布。t~ t ( n − 2 ) t(n-2) t(n−2)
对回归系数假设检验的基本思路是,在所估计样本的回归系数概率分布性质已确定的基础上,在对总体回归系数某种原假设(或称零假设)成立的条件下,利用适当的有明确概率分布的统计量和给定的显著性水平α,构造一个小概率事件。判断原假设合理与否,是基于“小概率事件不会发生”的原理。如果小概率事件发生了,就拒绝原假设,不拒绝备择假设。
对总体参数假设检验可能有不同的要求,可以检验总体参数是否等于、大于或小于某特定数值 β ∗ β^* β∗,这时假设检验分别为 H 0 : β 2 = β 2 ∗ H_0:β_2=β_2^* H0:β2=β2∗、 H 0 : β 2 ≥ β 2 ∗ H_0:β_2≥β_2^* H0:β2≥β2∗、 H 0 : β 2 ≤ β 2 ∗ H_0:β_2≤β_2^* H0:β2≤β2∗。
也可以检验总体参数是否等于0。
原假设和备择假设的设定方式不同,判断是否拒绝区域的方式也不同。
设定 H 0 : β 2 = β 2 ∗ H_0:β_2=β_2^* H0:β2=β2∗, H 1 : β 2 ≠ β ∗ H_1:β_2≠β^* H1:β2=β∗,进行的是双侧检验;
设定 H 0 : β 2 ≥ β 2 ∗ H_0:β_2≥β_2^* H0:β2≥β2∗, H 1 : β 2 < β 2 ∗ H_1:β_2<β_2^* H1:β2<β2∗,
或设定 H 0 : β 2 ≤ β 2 ∗ H_0:β_2≤β_2^* H0:β2≤β2∗, H 1 : β 2 > β 2 ∗ H_1:β_2>β_2^* H1:β2>β2∗,进行的是单侧检验。
**在计量经济学中,为了检验所建立的回归模型中解释变量对被解释变量是否有显著影响,经常把回归系数 β 2 = 0 β_2=0 β2=0作为原假设。
假设检验的三种方法:①临界值②置信区间③P值
临界值法需要先 构建检验统计量。
- 构建z统计量
当 σ 2 σ^2 σ2已知,或样本容量充分大时,根据样本计算的 z ∗ z^* z∗有, z ∗ = β 2 ^ − β 2 S E ( β 2 ^ ) z^*=\frac{\hat{β_2}-β_2}{SE(\hat{β_2})} z∗=SE(β2)β2−β2~ N ( 0 , 1 ) N(0,1) N(0,1)。
可利用服从正态分布的 z ∗ z^* z∗统计量。从正态分布表查z的临界值。如给定显著性水平α=0.05,则z临界值为1.96。把根据样本计算的z^*与z的临界值作比较,如果 − 1.96 ≤ z ∗ ≤ 1.96 -1.96≤z^*≤1.96 −1.96≤z∗≤1.96,就不能拒绝原假设 H 0 : β 2 = β 2 ∗ H_0:β_2=β_2^* H0:β2=β2∗,即认为 β 2 β_2 β2显著不等于 β 2 ∗ β_2^* β2∗
- 计量经济研究中,通常面临的是 σ 2 σ^2 σ2未知,且样本容量较小。通常使用 σ 2 ^ = ∑ e i 2 n − 2 \hat{σ^2}=\frac{\sum e_i^2}{n-2} σ2^=n−2∑ei2去替代 σ 2 σ^2 σ2,构建的是t统计量。
t = β 2 ^ − β 2 S E ( β 2 ^ ) t=\frac{\hat{β_2}-β_2}{SE(\hat{β_2})} t=SE(β2)β2−β2~ t ( n − 2 ) t(n-2) t(n−2)。
由t分布表可知,自由度为n-2对应概率为α/2的临界值 t α / 2 ( n − 2 ) t_{α/2}(n-2) tα/2(n−2)。
如果 − t α / 2 ≤ t ≤ t α / 2 -t_{α/2}≤t≤t_{α/2} −tα/2≤t≤tα/2,则不能拒绝原假设 H 0 : β 2 = 0 H_0:β_2=0 H0:β2=0,即认为解释变量对被解释变量没有显著性影响;反之,如果 t < − t α / 2 t<-t_{α/2} t<−tα/2 或 t > t α / 2 t>t_{α/2} t>tα/2,就拒绝 H 0 : : β 2 = 0 H_0::β_2=0 H0::β2=0,不拒绝 H 1 : : β 2 ≠ 0 H_1::β_2≠0 H1::β2=0,即认为对应解释变量对被解释变量有显著影响。
参数的区间估计与假设检验既有联系也有区别。
假设检验是根据已知样本观测值,判断它是否与总体参数作的某一个假设相一致;而参数区间估计主要回答什么样的区间包含总体参数真实值以及可靠程度问题。
对回归系数的区间估计,可分为以下三种情况:
最后
不知道你们用的什么环境,我一般都是用的Python3.6环境和pycharm解释器,没有软件,或者没有资料,没人解答问题,都可以免费领取(包括今天的代码),过几天我还会做个视频教程出来,有需要也可以领取~
给大家准备的学习资料包括但不限于:
Python 环境、pycharm编辑器/永久激活/翻译插件
python 零基础视频教程
Python 界面开发实战教程
Python 爬虫实战教程
Python 数据分析实战教程
python 游戏开发实战教程
Python 电子书100本
Python 学习路线规划
网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。
需要这份系统化的资料的朋友,可以添加V获取:vip1024c (备注python)
一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!
g.csdnimg.cn/d29631674929476f9c3b30f7ff58dff0.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2ZlaTM0Nzc5NTc5MA==,size_16,color_FFFFFF,t_70)
网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。
需要这份系统化的资料的朋友,可以添加V获取:vip1024c (备注python)
[外链图片转存中…(img-Nw3Mot55-1713226528184)]
一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!