计量经济学入门(黄少敏)
第一章 什么是计量经济学
到20世纪初期,新古典学派的经济学家们开始用数量分析的方法来探讨国民最关心的三个经济问题:国民经济增长、就业和通货膨胀。
计量经济学的研究必须建立在这个基础上,即在学术界基本完成了对“质”的问题的争吵,统一了认识。
计量经济学的应用需要三个前提条件:第一是在经济理论的基础上建立的经济数学模型;第二是收集准确的实际经济数据;第三拥有运算速度快、记忆容量大的是计算机和统计软件。
在数理经济学中,经济要素是质的概念,是纯正的。将这种概念放到数学模型中推导演绎,从中得出理论性的结论。 而在计量经济学的研究中,实际的经济要素往往是些变量,并不像理论中的概念那么纯正。 这种区别就如在化学家眼里的“水”是二氢一氧的分子(H2O);而化学工程师眼里的水(如泉水)是以二氢一氧的水分子为主要成分再加上少量其他杂质的混合液体。
如果计量经济学家用一些假数据来做研究,就如同巧妇用牛粪掺杂草为原料去做给家人吃的晚饭,是在害家人。
在应用计量经济学中最流行的计算机软件是SAS(www.sas.com),其次是SPSS(www.spss.com)。 这两种软件都是可以装在大型计算机和个人电脑上的。 还有些是可装入个人电脑的软件如LIMDEP,SHAZAM,TSP等。 另外,EXCEL中的统计功能也能用于一些简单的计量经济学分析。
模型和回归分析
回归分析方法是计量经济学的主要方法。
在计量经济学的模型中总是有自变量和因变量,或称解释变量和被解释变量。 被解释变量就是因为其他因素的变化而变化的变量。 解释变量就是在特定环境中自身起变化而影响被解释变量变化的变量。 被解释变量一般列在等式的左边,解释变量排列在等式的右边。 对于一个被解释变量,可能会同时受到几个解释变量的影响。
举例:市场的需求是由价格、收入、其他物价、消费偏好、市场期望等因素决定的。 那么,我们就可以设立这样一个经济数学模型:
市场的需求 = f ( 价格,收入,其他物价,消费偏好,市场期望 ) 市场的需求 = f(价格,收入,其他物价,消费偏好,市场期望) 市场的需求=f(价格,收入,其他物价,消费偏好,市场期望)
也就是说,市场的需求是个被解释变量,它是价格、收入、其他物价、消费偏好、市场期望等解释变量的方程(函数)。 这个方程可以用对数将其转换成一个线性方程(线性实际为一种假设),即
l n ( Q ) = β 0 + β 1 l n ( P ) + β 2 l n ( Y ) + β 3 l n ( P O ) + β 4 l n ( S ) + β 5 l n ( E ) ln(Q) = \beta_0 + \beta_1 ln(P) + \beta_2 ln(Y) + \beta_3 ln(PO) + \beta_4 ln(S) + \beta_5 ln(E) ln(Q)=β0+β1ln(P)+β2ln(Y)+β3ln(PO)+β4ln(S)+β5ln(E)
宏观经济学模型:
G D P = C + I + G + E X − I M GDP = C + I + G + EX - IM GDP=C+I+G+EX−IM 国内生产总值 = 国内个人总消费 + 国内总投资 + 政府总开支 + 出口额 − 进口额 国内生产总值 = 国内个人总消费 + 国内总投资 + 政府总开支 + 出口额 - 进口额 国内生产总值=国内个人总消费+国内总投资+政府总开支+出口额−进口额
这是个恒等式,等式右边变量的系数是1,是已知的,不需要估计。如果把这个等式当作“模型”来作回归分析的话,那就错了。
数据
从经济社会中收集的数据主要有三种,一种叫横截面数据(Cross-sectional data), 一种叫时间序列数据(Time-series data), 还有一种是将横截面数据与时间序列数据合在一起的数据,叫集合数据(Pooling of cross-sectional and time series data)。将几个不同时期经济数据样本集合在一起的数据叫纵向数据(Longitudinal data)。 如果是同一组样本对象在连续几个时期被采样的数据叫面板数据(Panel data),或叫板块数据。
现代西方经济学的学术论文不是文学类的文章,它们更接近自然科学类的科技研究报告,有一定的格式,有点像“八股文”。 这种格式一般来说是这样的:
- 简介 Introduction
- 文献回顾 Literature review
- 理论模型和研究方法 Model and research method
- 数据 Data
- 回归分析结果 Analysis results
- 结论 Conclusion
- 参考文献 Reference
第二章 统计基础知识
频率表
在大部分经济研究报告中,更多地被使用的并不是复杂的经济模型,而是频率表这类简单易懂的图表。 为了使其分布一目了然,我们还可以用饼式图表来显示分布等百分比。
一般来说,图表中有七个或少于七个层次时,图表对受过普通教育的人来说就是一目了然的了。
我们还可以用柱式图表来显示这个收入变量的分布。
均值
方差与标准差
方差是用来衡量变量的离散性的。在计算方差时,我们要注意区分总体的方差与抽样方差。总体的方差用 σ 2 \sigma^2 σ2来表示。 抽样的方差用 s 2 s^2 s2来表示。方差计算公式如下:
σ 2 = Σ n ( x i − μ ) 2 N s 2 = Σ n ( x i − x ˉ ) 2 n − 1 \sigma^2 = \frac{\Sigma_n (x_i-\mu)^2}{N}\\ s^2 = \frac{\Sigma_n (x_i-\bar{x})^2}{n-1} σ2=NΣn(xi−μ)2s2=n−1Σn(xi−xˉ)2
统计学家们推算出,由于抽样的数量规模较小,用" n − 1 n-1 n−1"来除更能相对精确地表示出抽样的方差。 这里有个“自由度”的概念。 因为我们在计算样本方差时使用了均值这个估计参数,所以要减去一个自由度。
标准偏差(或称标准差)被定义为方差的正平方根,即:
σ = σ 2 s = s 2 \sigma = \sqrt{\sigma^2} \\ s = \sqrt{s^2} σ=σ2s=s2
对于已知概率的变量,我们应该用反映概率的公式来计算其方差,即:
σ 2 = Σ N ( x i − μ ) 2 p i = Σ N [ x i − E ( x ) ] 2 p i \sigma^2 = \Sigma_{N} (x_i-\mu)^2p_i \\ =\Sigma_{N} [x_i-\mathbb{E}(x)]^2p_i σ2=ΣN(xi−μ)2pi=ΣN[xi−E(x)]2pi
假设检验
什么是假设检验? 就是我们事先有个假设,然后再用统计方法来检验这个假设是否有统计意义。 对于单一变量来说,我们先假设其均值等于某个数值,然后再来检验。 这类检验是根据著名的“中心极限理论(Central Limit Theorem)”来验证的。 这个理论表明:“给定某一变量,无论该变量服从什么样的分布,当其样本规模增大时,其样本均值的分布就会趋于正态分布。”因此,我们在检验假设的均值时,可以用标准正态分布的值来验证。
Z检验和t检验
一般有两种检验的方法。 当样本规模大于30时,我们可以用“Z”值(标准正态分布)来检验。 当样本规模小于30时,我们应该用“t”(“学生唱 t”分布)来检验。
假设检验一般有五个步骤:
- 设定假设条件:原定假设 H 0 : μ = μ 0 H_0: \mu = \mu_0 H0:μ=μ0和替代假设 H α : μ ≠ μ 0 H_{\alpha}: \mu \neq \mu_0 Hα:μ=μ0
- 决定用哪种检验:若 n ≥ 30 n \ge 30 n≥30,用Z检验;若 n < 30 n < 30 n<30,用t检验
- (查表)找临界值:根据给定的定义域大小( α = 1 % , α = 5 % , α = 10 % \alpha=1\%,\alpha=5\%,\alpha=10\% α=1%,α=5%,α=10%),从概率分布表查 Z c Z^c Zc或 t c t^c tc (置信区间 Confidence Interval)
- 计算统计值: Z ∗ = x ˉ − μ 0 σ / n Z^* = \frac{\bar{x}-\mu_0}{\sigma/\sqrt{n}} Z∗=σ/nxˉ−μ0,或 t ∗ = x ˉ − μ 0 s / n t^*= \frac{\bar{x}-\mu_0}{s/\sqrt{n}} t∗=s/nxˉ−μ0
- 比较临界值和统计值得出结论。
对Z检验来说, ∣ Z ∗ ∣ > Z c |Z^*|>Z^c ∣Z∗∣>Zc否定原假设, ∣ Z ∗ ∣ < Z c |Z^*|<Z^c ∣Z∗∣<Zc不能否定原假设;
对t检验来说, ∣ t ∗ ∣ > t c |t^*|>t^c ∣t∗∣>tc否定原假设, ∣ t ∗ ∣ < t c |t^*|<t^c ∣t∗∣<tc不能否定原假设;
一般来说,在计算 Z ∗ Z^* Z∗值时我们应该用 Z ∗ = ( x ˉ − μ 0 ) / ( s / n ) Z^* = (\bar{x}-\mu_0)/(s/\sqrt{n}) Z∗=(xˉ−μ0)/(s/n)这个公式来计算,而不是用 Z ∗ = ( x ˉ − μ 0 ) / ( σ / n ) Z^* = (\bar{x}-\mu_0)/(\sigma/\sqrt{n}) Z∗=(xˉ−μ0)/(σ/n)来计算。 这里,我们用真实标准偏差 σ \sigma σ的估计值 s s s来取代真实标准偏差 σ \sigma σ 。 在实际研究中,我们往往不知道总体的真实标准偏差。 如果总体的真实标准偏差确是已知的,那么总体的均值应该是已知的,因为在计算方差时首先要计算均值。 如果均值也是已知的,那我们就没有必要在对总体的均值做什么假设检验了。
假设方案是“等于”与“不等于”,所以我们要作两侧检验。 那么给定总误差在 α = 10 % \alpha=10\% α=10%的水平上,两侧的误差则是 α / 2 = 5 % \alpha/2=5\% α/2=5%。
如果我们想要做单侧检验,我们要用原均值( μ 0 \mu_0 μ0)与新取样本的均值( X ˉ \bar{X} Xˉ)作比较。
如果 X ˉ > μ 0 \bar{X}>\mu_0 Xˉ>μ0,那么设定: H 0 : μ ≤ μ 0 H_0: \mu \leq \mu_0 H0:μ≤μ0和 H α : μ > μ 0 H_{\alpha}: \mu > \mu_0 Hα:μ>μ0;
如果 X ˉ < μ 0 \bar{X}<\mu_0 Xˉ<μ0,那么设定: H 0 : μ ≥ μ 0 H_0: \mu \geq \mu_0 H0:μ≥μ0和 H α : μ < μ 0 H_{\alpha}: \mu < \mu_0 Hα:μ<μ0。
在假设检验中,我们通常把误差设在1%、5%或10%的水平上。 也就是说,我们所作出的结论允许有1%、5%或10%的可能性是错误的。
假设 H 0 : μ = μ 0 H_0: \mu = \mu_0 H0:μ=μ0; H α : μ ≠ μ 0 H_{\alpha}: \mu \neq \mu_0 Hα:μ=μ0 | 原假设是正确的 | 原假设是错误的 |
---|---|---|
接受原假设 | 可能性 1 − α 1-\alpha 1−α | 第二类误差 β \beta β |
拒绝原假设 | 第一类误差 α \alpha α | 可能性 1 − β 1-\beta 1−β |
P-value
边际显著性水平(marginal significant level),我们可以把它解释成“否定原假设失误的可能性”(简称“失误率”或“显著程度”)。在假设检验中,计算出来的 t 值越大,其失误率就越小,我们否定原假设的信心就越足。
相关系数
给定两个变量X 和 Y,那么这两个变量的 协方差 (covariance)被定义为:
σ x y = Σ n ( x i − x ˉ ) ( y i − y ˉ ) / n \sigma_{xy} = \Sigma_n (x_i - \bar{x})(y_i - \bar{y})/n σxy=Σn(xi−xˉ)(yi−yˉ)/n
那么这两个变量的相关系数 (correlation coefficient) 就被定义为:
r = Σ ( x i − x ˉ ) ( y i − y ˉ ) Σ ( x i − x ˉ ) 2 Σ ( y i − y ˉ ) 2 r = \frac{\Sigma (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\Sigma (x_i - \bar{x})^2 \Sigma (y_i - \bar{y})^2}} r=Σ(