以下摘录适用于经济学本科层级、和互联网数据分析的概率论核心概念和公式。参考教材是本科经济学专业计量经济学课上的教材,詹姆斯·斯托克、马克·沃森所著的《计量经济学》第三版。
一、随机变量和概率分布
- 离散型随机变量的概率分布 probability distribution:变量的所有可能取值既每个取值发生的概率列表。且所有的概率相加之和为1.
- 累积概率分布 cumulative probability distribution/累积分布函数 cumulative distribution function, c.d.f./累积分布 cumulative distribution:随机变量小于或等于某个特定值的概率。
- 贝努力分布 Bernouli distribution:结果取0或1的二值随机变量的概率分布。
- 概率密度函数probability density function, p.d.f./密度函数 density function/密度 density:我们用概率密度函数表示连续性随机变量可取的连续值的概率。随机变量落入两点之间的概率等于位于这两点之间概率密度函数曲线下方的面积。
二、期望值、均值和方差
- 随机变量Y的期望值 expected value/Y的期望 expectation/Y的均值 mean 记为
:随机变量在多次重复实验或反复出现中的长期平均值。
- 离散随机变量的期望值和均值公式:
- 连续随机变量的期望:?
- 方差和标准差:方差和标准差度量了概率分布的离散或散布程度。随机变量Y的方差variance,记为var(Y),是Y距离其均值的偏差平方的期望值。由于方差涉及Y的平方,所以方差的单位是Y平方的单位。标准差 standard deviation,即方差的平方根,衡量离散程度,记为
。
- 离散型随机变量Y的方差,
- 随机变量线性函数的均值和方差:Y=a+bX,则
,
- 分布形状的度量指标——分布矩(moments of a distribution):均值度量了一个分布的中心位置;标准差度量了一个分布的离散程度;偏度度量分布的对称性;峰度度量一个分布的尾部粗细或薄厚。
- 偏度 skewness =
,描述了分布不对称的程度。对对称分布来讲,
,即对称分布的偏度为零;非对称分布的偏度不为零,如果分布具有较长的右尾,偏度为正。如果分布具有较长的左尾,则偏度为负。偏度是无量纲的。
- 峰度 kurtosis,是度量分布尾部薄厚的指标,它衡量了Y的方差多大部分是由极端值引起的。我们称Y的极端值为异常值outlier。分布的偏度越大,则出现异常值的可能性也越大。峰度=
,厚尾分布的峰度较大。峰度不为负。服从正态分布的随机变量峰度为3,所以峰度超过3的随机变量比正态随机变量的尾部要厚。我们称峰度超过3的分布是尖峰的(leptokurtic),或厚尾的。峰度是无量纲的。
- 矩:一般
的期望称为随机变量Y的r阶矩(
moment)。即Y的r阶矩为
三、二维随机变量
- 联合分布:两个离散型随机变量,比方说X和Y的联合概率分布 joint probability distribution 为随机变量同时取某些值,如x和y的概率。联合概率分布函数为Pr(X=x, Y=y)。所有可能的组合(x,y)的概率相加等于1。
- 边缘概率分布 marginal probability distribution:Y的边缘分布即为X和Y的所有可能结果中Y取某一特定值的所有概率之和。若X可取l个不同的值,则Y取y值的边缘概率为
- 条件分布 conditional distribution:给定零一随机变量X取某特定值条件下,随机变量Y的分布成为给定X时Y的条件分布。一般地,给定X=x时Y的条件分布为
- 条件期望 conditional expectation:给定X时Y的条件期望,也称给定X时Y的条件均值,是指给定X时Y的条件分布均值。
- 期望的迭代原则 law of iterated expectations:Y的均值是给定X时Y的条件期望以X的概率分布为权重的加权平均值。
。换言之,Y的期望为给定X时Y的条件期望的期望,即
。期望的迭代原则表明,如果给定X时Y的条件期望为零,则这些条件均值的概率加权平均值必为零,即,Y的均值必为零。
- 条件方差:给定X条件下Y的方差variance of Y conditional on X 指给定X时Y条件分布的方差。
- 独立性 independedntly distributed/independent:若知道两个随机变量X和Y中某一个变量的取值无法提供另一个变量的取值信息,则称X和Y独立分布或独立。尤其是当给定X时Y的条件分布等于Y的边缘分布,则X和Y独立。即,如果对所有的x和y,有
则X和Y独立分布。若X和Y独立,则
,即两个独立随机变量的联合分布是它们边缘分布的乘积。
- 协方差 covariance:衡量两个变量同时变动程度。
为了解释这一公式,假设当X大于其均值时,Y趋向于大于它的均值,于是协方差为正。反之,如果X和Y的变动趋势相反,则协方差为负。最后,若X和Y独立,则协方差为零。(*X和Y的协方差是X和Y偏离其均值的乘积,因此它的单位是X的单位乘Y的单位,令我们难以解释协方差的数值)
- 相关系数 correlation:X和Y的相关系数是X和Y的协方差除以他们的标准差,因此它解决了协方差“单位”的问题。
。如果
,则称X和Y是不相关的 uncorrelated。相关系数在[-1,1]之间取值,即
- 相关系数和条件均值:如果Y的条件均值不依赖于X,则Y和X是不相关的。即,若
,则
且
- 随机变量的期望、方差、和协方差:
,
,
,
,
,
,
。特殊地,若X和Y独立,则起协方差为零,且它们和的方差等于他们方差的和。
四、计量经济学中常遇到的概率分布
4.1 正态分布
- 正态分布 normal distribution: 服从正态分布的连续型随机变量具有钟形概率密度曲线。正态分布用
标识。期望为
,方差为
的正态密度曲线关于均值对称,且落入
与
之间的概率为95%,也即正态p.d.f.下方的面积为0.95。
- 标准正态分布 standard normal distribution:期望为0、方差为1的正态分布被称为标准正态分布,记为
。我们常用
表示服从
分布的随机变量,用希腊字母
表示其累积分布函数,因此,
,其中c为常数。
- 正态随机变量的概率计算:设
服从
,则通过减去其期望除以其方差标准化
,即计算
。令
表示满足
的两个数,又令
和
,则
,
,
- 多维正态分布 multivariate normal distribution: 一组随机变量的联合分布。多维正态分布的四个性质:
- 若
和
服从协方差为
的二维正态分布,且设a和b为两个常数,则
服从正态分布,即
服从分布
。更一般地,若n个随机变量服从多为正态分布,则这些变量的任意线性组合都服从正态分布。
- 若一组变量服从多为正态分布,则其中每个变量的边缘分布都为正态分布。
- 若服从多为正态分布的变量协方差为零,那么这些变量独立。故若X和Y服从二维正态分布且
,则X和Y独立。此前我们指出,若X和Y独立,其协方差
。这一结论,即协方差为零意味着变量独立,是多维正态分布的一个特殊性质,对一般分布而言这一性质并不成立。
- 如果X和Y服从二元正态分布,则给定X时Y的条件期望是X的线性函数,即
,a和b为常数。联合正态性能推出条件期望的线性性,单条件期望的线性性推不出联合正态性。
4.2 卡方分布
- 卡方分布 chi-squared distribution:m个独立标准正态随机变量的平方和服从卡方分布。自由度为m的卡方分布记为
。该分布依赖于m,成为卡方分布的自由度。例如,令
为相互独立的标准正态随机变量,则
服从自由度为3的卡方分布。
- 卡方分布的分位数:
的95%分位数等于7.81,因此
4.3 学生t分布
- 自由度为m的学生t分布 student t distribution:定义为标准正态随机变量与和它独立的自由度为m的卡方随机变量除以自由度m的平方根之比的分布。即,令Z表示标准正态随机变量,W表示服从自由度为m的卡方分布的随机变量,且Z和W独立,则随机变量
服从自由度为m的学生t分布(也称t分布),用
表示。
- 学生t分布依赖于自由度m,故
分布的95%分位数依赖于自由度m.
- 学生t分布具有与正态分布相似的钟形形状,但当m较小时(小于或等于20),t分布尾部较厚,即它具有比正态分布更“平坦”的钟形形状。当m大于等于30时,可用标准正态分布近似表示学生t分布,且
分布等于标准正态分布。
4.4 F分布
- F分布 F distribution:具有自由度m和n的F分布定义为自由度为m的卡方随机变量除以m与和它独立的自由度为n的卡方随机变量除以n之比的分布,记为
。用数学语言表述如下,令W表示自由度为m的卡方随机变量,V为自由度为n的卡方随机变量,且W与V独立,则
服从
分布,即F分布具有分子的自由度m和分母的自由度n。
- F分布的一个重要特例是分母的自由度足够大,使
分布可用
近似。在这个极限情形中,分母的随机变量V表示无限多卡方随机变量的平均值,且由于标准正态随机变量平方的均值为1,该均值也等于1。所以
分布表示自由度为m的卡方随机变量除以m的分布,即
服从
分布。