统计模型基础逻辑

统计模型基础逻辑



前言

回归分析是处理变量x和y之间关系的一种统计方法和技术。

一、回归分析研究的主要内容

回归分析研究的主要对象是客观事物变量间的统计关系, 它是建立在对客观事物进行大量试验和观察的基础上, 用来寻找隐藏在那些看上去是不确定的现象中的统计规律性的统计方法。回归分析方法是通过建立统计模型研究变量间相互关系的密切程度、结构状态、模型预测的一种有效的工具。


二、回归模型的一般形式

如果变量 x 1 , x 2 , ⋯   , x p x_1, x_2, \cdots, x_p x1,x2,,xp 与随机变量 y y y 之间存在着相关关系, 通常就意味着每当 x 1 , x 2 , ⋯   , x p x_1, x_2, \cdots, x_p x1,x2,,xp 取定值后, y y y 便有相应的概率分布与之对应 。随机变量 y y y 与相关变量 x 1 , x 2 , ⋯   , x p x_1, x_2, \cdots, x_p x1,x2,,xp 之间的概率模型为
y = f ( x 1 , x 2 , ⋯   , x p ) + ε     ( 1.1 ) y=f\left(x_1, x_2, \cdots, x_p\right)+\varepsilon \ \ \ \ (1.1) y=f(x1,x2,,xp)+ε    1.1
其中, 随机变量 y y y 称为被解释变量 (因变量); x 1 , x 2 , ⋯   , x p x_1, x_2, \cdots, x_p x1,x2,,xp 称为解释变量 (自变量)。 f ( x 1 , x 2 , ⋯   , x p ) f\left(x_1, x_2, \cdots, x_p\right) f(x1,x2,,xp) 为一般变量 x 1 , x 2 , ⋯   , x p x_1, x_2, \cdots, x_p x1,x2,,xp 的确定性关系, ε \varepsilon ε 为随机误差。

正是因为随机误差项 ε \varepsilon ε 的引入,才将变量之间的关系描述为一个随机方程,使得我们可以借助随机数学方法研究 y y y x 1 , x 2 , ⋯   , x p x_1, x_2, \cdots, x_p x1,x2,,xp 的关系。由于现实的错综复杂, 一种现象( y y y)很难用有限个因素( x i x_i xi)来准确说明, 随机误差项可以概括表示由于人们的认识以及其他客观原因的局限而没有考虑的种种偶然因素。我们应当注意到,这里解释变量的选择需要对问题背景有深入的了解。

上式清楚地表达了变量 x 1 , x 2 , ⋯   , x b x_1, x_2, \cdots, x_b x1,x2,,xb 与随机变量 y y y 的相关关系, 它由两部分组成: 一部分是确定性函数关系, 由回归函数 f ( x 1 , x 2 , ⋯   , x p ) f\left(x_1, x_2, \cdots, x_p\right) f(x1,x2,,xp) 给出; 另一部分是随机误差项 ε \varepsilon ε

当概率模型 ( 1.1 ) (1.1) (1.1) 式中回归函数为线性函数时, 即有
y = β 0 + β 1 x 1 + β 2 x 2 + ⋯ + β p x p + ε y=\beta_0+\beta_1 x_1+\beta_2 x_2+\cdots+\beta_p x_p+\varepsilon y=β0+β1x1+β2x2++βpxp+ε
其中, β 0 , β 1 , β 2 , ⋯   , β p \beta_0, \beta_1, \beta_2, \cdots, \beta_p β0,β1,β2,,βp 为未知参数,常称它们为回归系数。线性回归模型的 “线性” 是针对未知参数 β i ( i = 0 , 1 , 2 , ⋯   , p ) \beta_i(i=0,1,2, \cdots, p) βi(i=0,1,2,,p) 而言的。


实际建立回归模型的过程

一、基础逻辑

1、根据研究目的,设置变量指标

在这里插入图片描述

对一个具体的问题, 当研究目的确定之后, 确定被解释变量 y y y 就比较容易, 被解释变量一般直接表达、刻画研究的目的。 直接对被解释变量有影响的解释变量 x x x 的确定就不太容易。一是由于我们的认识有局限, 可能并不知道对被解释变量有重要影响的因素。二是为了模型参数估计的有效性, 设置的解释变量之间应该是不相关的。我们很难确定哪些变量是相关的,哪些不是相关的。这就看我们如何在多个变量中确定几个重要的、且不相关的变量。三是我们认为非常重要的变量应该引进, 但是在实际中并没有这样的统计数据。这时, 可以考虑用相近的变量代替,或者由其他几个指标复合成一个新的指标。

在选择变量时要注意与一些专门领域的专家合作。这样做可以帮助我们确定模型变量。另外, 不是一个回归模型所涉及到的解释变量越多越好。当引入的变量太多时, 可能选择了一些与问题无关的变量, 还可能由于一些变量的相关性很强, 它们所反映的信息有较严重的重叠, 这就出现共线性问题。当变量太多时, 计算工作量太大, 计算误差积累也大, 估计出的模型参数精度自然不高。
总之, 回归变量的确定是一个非常重要的问题, 是建立回归模型最基本的工作。这个工作一般一次并不能完全确定, 通常要经过反复试算, 最终找出最适合的一些变量。这在今天计算机的帮助下, 已变得不太困难了。

2、收集、整理统计数据

数据的收集是建立回归模型的重要一环, 是一项基础性工作, 样本数据的质量如何, 对回归模型的水平有至关重要的影响。
常用的样本数据分为时间序列数据和横截面数据。

顾名思义, 时间序列数据就是按时间顺序排列的统计数据。
时间序列数据容易产生模型中随机误差项的序列相关, 这是因为许多变量的前后期之间总是有关联的。
横截面数据即为在同一时间截面上的统计数据。
当用截面数据作样本时, 容易产生异方差性。这是因为一个回归模型往往涉及到众多解释变量, 如果其中某一因素或一些因素随着解释变量观测值的变化而对被解释变量产生不同影响, 就产生异方差性。

通常为了使模型的参数估计更有效, 要求样本容量 n n n大于解释变量个数 p p p 。样本容量的个数小于解释变量数目时, 普通的最小二乘估计方法失效。,这告诉我们在收集数据时应尽可能多收集一些样本数据。

统计数据的整理中不仅要把一些变量数据进行折算、差分, 甚至把数据对数化、标准化等, 有时还须注意剔除个别特别大或特别小的 “野值”。在统计数据质量不高时, 经常会碰到这种情况。当然, 有时还须利用不同的方法把空缺的数据补齐。

3、确定理论回归模型的数学形式

当收集到所设置的变量的数据之后, 就要确定适当的数学形式来描述这些变量之间的关系。绘制变量 y i y_i yi x i ( i = 1 , 2 , ⋯   , n ) x_i(i=1,2, \cdots, n) xi(i=1,2,,n) 的样本散点图是选择数学模型形式的重要一环。一般我们把 ( x i , y i ) \left(x_i, y_i\right) (xi,yi) 所对应的点在平面直角坐标系上画出来, 看散点图的分布状况。如果 n n n 个样本点大致分布在一条直线的周围, 我们可虑用线性回归模型去拟合这条直线, 也即选择线性回归模型。如果 n n n 个样本点的分布大数在一条指数曲线的周围, 我们就可选择指数形式的理论回归模型去描述它。

如数理经济学中最有名的生产函数 C-D 生产函数是 20 世纪 30 年代初美国经济学家查尔斯 W. 柯布 (Charies W.Cobb)和保罗 H. 道格拉斯 (Paul H.Douglos) 根据历史统计数据建立的, 资本 K K K 和劳动 L L L 与产出被确切地表达为
y = A K α L β y=A K^\alpha L^\beta y=AKαLβ
其中, α , β \alpha, \beta α,β 分别为 K K K L L L 对产出 y y y 的弹性。C-D 生产函数指出了厂商行为的一种模式, 在函数中变量之间的关系是准确实现的。但是出计量经济学的观点, 变量之间的关系并不符合数理经济学所拟定的准确关系模式, 而是有随机偏差的。因而给 C − D \mathrm{C}-\mathrm{D} CD 生产函数增加一个随机项 U U U, 将变量之间的关系描述为一个随机模型, 然后用随机数学方法加以研究, 以得出非确定的概率性结论, 这更能反映出经济问题的特点。随机模型为
y = A K α L β U y=A K^\alpha L^\beta U y=AKαLβU

ln ⁡ y = ln ⁡ A + α ln ⁡ K + β ln ⁡ L + ln ⁡ U \ln y=\ln A+\alpha \ln K+\beta \ln L+\ln U lny=lnA+αlnK+βlnL+lnU
模型(1.11)式是一个非线性的回肾模型形式; 模型(1.12)式是一个对数线性回归模型的形式。

有时候, 我们无法根据所获信息确定模型的形式, 这时可以采用不同的形式进行计算机模拟, 对于不同的模拟结果, 选择较好的一个作为理论模型。

4、模型参数的估计

回归理论模型确定之后, 利用收集、整理的样本数据对模型的未知参数给出估计是问归分析的重要内容。末知参数的估计方法最常用的是普通最小二乘法,它是经典的估计方法。对于不满足模型基本假设的回归问题, 人们给出了种种新方法, 如岭回归、主成分回归、偏最小二乘估计等。但它们都是以普通最小二乘法为基础。

5、模型的检验与修改

当模型的未知参数估计出来后, 可以说就初步建立了一个回归模型。我们建立回归模型的目的是为了应用它来研究问题, 但如果马上就用这个模型去作预测、控制和分析,显然是不够慎重的。因为这个模型是否真正揭示了被解释变量与解释变量之间的关系, 必须通过对模型的检验才能决定。
对于回归模型的检验一般需要进行统计检验和模型经济意义的检验。
统计检验通常是对回归方程的显著性检验, 以及回归系数的显著性检验, 还有拟合优度的检验, 随机误差项的序列相关检验, 异方差性检验, 解释变量的多重共线性检验等。
在经济问题回归模型中, 往往还碰到回归模型通过了一系列统计检验, 可就是得不到合理的经济解释。例如,国民收入与工农业总产值之间应该是正相关,回归模型中工农业总产值变量前的系数应该为正的, 但有时候由于样本容量的限制或数据质量的问题, 可能估计出的系数是负的,这个回归模型就没有意义, 也就谈不上进一步应用了。
如果一一个回归模型没有通过某种统计检验, 或者通过了统计检验而没有合理的经济意义时, 就需要对回归模型进行修改。模型的修改有时要从变量设置是否合理开始, 是不是把某些重要的变量忘记了考虑, 变量间是否具有很强的依赖性, 样本量是不是太少, 理论模型是否合适。譬如某个问题本应用曲线方程去拟合, 而我们误用直线方程去拟合, 这就要重新构造理论模型。模型的建立往往要反复几次修改, 特别是建立一个实际经济问题的回归模型, 要反复修正才能得到一个理想模型。

6、回归模型的运用

当回归模型通过了各种统计检验, 且模型具有合理的现实意义时, 我们就可以运用这个模型来进一步研究。
经济变量的因素分析是回归模型的一个重要应用。应用回归模型对经济变量之间的关系作出了度量, 从模型的回归系数可发现经济变量的结构关系, 给出政策评价的一些量化依据。

在回归模型的运用中, 我们还强调定性分析和定量分析的有机结合。这是因为数理统计方法只是从事物外在的数量表面上去研究问题, 不涉及事物质的规定性。单纯的表面上的数量关系是否反映事物的本质? 这本质究竟如何? 必须依靠专门学科的研究才能下定论。所以, 不能仅凭样本数据估计的结果就不加分析地说长道短, 必须把参数估计的结果和具体问题以及现实情况紧密结合, 这样才能保证回归模型在现实问题研究中的正确运用。

7、回归分析应用与发展述评

矩阵理论和计算机技术的发展为回归分析模型在经济研究中的应用提供了极大的方便。
回归分析的理论和方法研究近 200 年来也得到不断发展, 统计学中的许多重要方法都与回归分析有着密切的联系。如时间序列分析、判别分析、主成分分析、因子分析、典型相关分析等。这些都极大地丰富了统计学方法的宝库。

对于满足基本假设的回归模型, 它的理论已经成熟, 但对于违背基本假设的回归模型的参数估计问题近些年仍有较多研究。


二、具体例子 —— 一元线性回归

1、一元回归模型基本表达形式

y = β 0 + β 1 x + ϵ     ( 2.1 ) y = \beta_0+\beta_1 x+\epsilon \ \ \ (2.1) y=β0+β1x+ϵ   (2.1)
这一公式将实际问题中的 y y y x x x 之间的关系用两个部分描述。一部分是由于 x x x 变化引起的 y y y 线性变化的部分,即 β 0 + β 1 x \beta_0+\beta_1 x β0+β1x; 另一部分是由其他一切随机因素引起的, 记为 ε \varepsilon ε。 这一公式确切地表达了变量 x x x y y y 之间密切相关, 但密切的程度又没有到由 x x x 惟一确定 y y y 的地步的这种特殊关系。

公式 (2.1) 被称为变量 y y y x x x 的一元线性理论回归模型。一般我们称 y y y 为被解释变量 (因变量), x x x 为解释变量 (自变量)。式中 β 0 \beta_0 β0 β 1 \beta_1 β1 是未知参数, 称 β 0 \beta_0 β0 为回归常数, β 1 \beta_1 β1 为回归系数。 ε \varepsilon ε 表示其他随机因素的影响。在式中我们一般假定 ε \varepsilon ε 是不可观测的随机误差, 它是一个随机变量, 通常假定 ε \varepsilon ε 满足
{ E ( ε ) = 0 var ⁡ ( ε ) = σ 2       ( 2.2 ) \left\{\begin{array}{l} E(\varepsilon)=0 \\ \operatorname{var}(\varepsilon)=\sigma^2 \ \ \ \ \ (2.2) \end{array}\right. { E(ε)=0var(ε)=σ2     (2.2)
对两端求期望,得
E ( y ) = β 0 + β 1 x     ( 2.3 ) E(y)=\beta_0+\beta_1 x \ \ \ (2.3) E(y)=β0+β1x   (2.3)
称这一公式为回归方程。

一般情况下, 对我们所研究的某个实际问题, 获得的 n n n 组样本观测值 ( x 1 , y 1 ) , ( x 2 , y 2 ) , ⋯   , ( x n , y n ) (x_1 ,y_1),\left(x_2, y_2\right), \cdots,\left(x_n, y_n\right) (x1,y1),(x2,y2),,(xn,yn) 来说, 如果它们符合一元回归模型, 则
y i = β 0 + β 1 x i + ε i , i = 1 , 2 , ⋯   , n     ( 2.4 ) y_i=\beta_0+\beta_1 x_i+\varepsilon_i, \quad i=1,2, \cdots, n \ \ \ (2.4) yi=β0+β1xi+εi,i=1,2,,n   (2.4)
由(2.2)式有
{ E ( ε i ) = 0 var ⁡ ( ε i ) = σ 2 i = 1 , 2 , ⋯   , n     ( 2.5 ) \left\{\begin{array}{l} E\left(\varepsilon_i\right)=0 \\ \operatorname{var}\left(\varepsilon_i\right)=\sigma^2 \end{array} \quad i=1,2, \cdots, n \ \ \ (2.5)\right. { E(εi)=0var(εi)=σ2i=1,2,,n   (2.5)
通常我们还假定 n n n 组数据是独立观测的, 因而 y 1 , y 2 , ⋯   , y n y_1, y_2, \cdots, y_n y1,y2,,yn ε 1 \varepsilon_1 ε1, ε 2 , ⋯   , ε n \varepsilon_2, \cdots, \varepsilon_n ε2,,εn 都是相互独立的随机变量。而 x i ( i = 1 , 2 , ⋯   , n ) x_i(i=1,2, \cdots, n) xi(i=1,2,,n) 是确定性变量, 其值是可以精确测量和控制的。我们称(2.4)式为一元线性样本回归模型。

(2.1)式的理论回归模型与(2.4)式的样本回归模型是等价的, 因而我们常不加区分地将两者统称为一元线性回归模型。

对 (2.4) 式两边分别求数学期等和方差, 得

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值