统计量 Statistic
构造统计量是为了估计未知参数。任何随机变量的函数都是统计量,例如样本均值(一阶矩),样本中位数,样本方差等等。
希望能够用简单的统计量来描述复杂的(或者是不易描述的)总体性质。
标准误 Standard Error
样本统计量的标准差称为标准误,用来描述样本统计量抽样分布的离散程度及衡量对应样本统计量抽样误差大小的尺度。
注意这里的对象是统计量,因此当讨论标准误时,应首先指明相应的统计量(例如样本均值,样本方差等)。
以样本均值为例,假设可从总体中取无限的大小相同的样本,每个样本集合都可以计算得到一个样本均值(样本统计量),由此可以得到一个样本均值构成的总体(总体中可以取无限个数目相同的样本),该均值总体的标准差(即所有的计算得到的样本均值的标准差)即为标准误。即样本均值的标准估计误差,均值标准误 Standard Error of the Mean (SEM)。
标准误的实际含义就是抽样误差的大小,即抽样得到的样本好不好,若抽样误差小(即标准误小),表明抽样得到的样本能够较好的代表总体。
若对总体的所有元素进行抽样(即样本大小等于总体大小,但这样已经失去了统计估计的意义)。理论上即不存在标准误,即标准误为0,亦即样本均值的标准差为0。但此时标准差仍然存在(除非总体的所有元素相等),因为标准差是描述总体分散程度的,而不是描述样本。
样本标准差一般用
s
表示,样本均值的标准误一般用
标准误和标准差:标准差是用来描述总体的分散程度,和均值一样,是对总体的一种描述。标准误是估计值抽样分布的标准差,描述估计值和总体真值之间的误差。
以均值标准误为例,可以把标准误转化为置信区间的方式来表示对总体均值估计的把握程度。若样本数目越大,则标准误越小,置信区间也越小,故数据使用者对(总体的)数据更有把握。
文献中一般列出了均值后一般会附上标准差或是标准误。若是均值
±
标准差,即
μ±σ
,描述的是总体的中央趋势(
μ
)和分散程度(
σ
)。若是均值
±
标准误,即
μ±SE
,则描述的是总体的中央趋势(
μ
)和对总体均值估计的可能误差程度(
SE
)。
自由度 degree of freedom
指当以样本的统计量来估计总体的参数时,样本中独立(或是能自由变化)的数据的个数,称为统计量的自由度。
故
n
个数据构成的样本,其样本均值的自由度是
蒙特卡洛方法 Monte Carlo method
指通过重复的随机抽样来获得数值结果的一种计算算法。
MCM通常可以分为两类:
1.所求解的问题具有的内在随机性,可以通过计算机模拟这样的随机过程。
2.所求解的问题可以转化为某种随机分布的特征数。例如随机事件出现的概率,可用随机事件出现的频率来估计其概率
MCM的工作过程:
1.产生均匀分布的随机数,再根据相应公式转换为服从特定分布的随机数。
2.用统计的方法估计模型的数字特征(例如均值方差等),进而得到实际问题的数值解。
例如可用MCM估计
π
,即在正方形的内切单位圆中随机投掷点,统计落在圆内的点数所占比例。
http://zh.wikipedia.org/wiki/File:Pi_30K.gif
蒙特卡洛算法的思想是,采样越多,越近似于最优解。例如在黑箱中随机取带有标号的球,目标是取标号最大的球,每取一次,碰到更大标号的即留下。除非取遍黑箱中所有的球,否则我并不知道目前持有的球的标号是否就是黑箱中所有的球中标号最大的。蒙特卡洛算法的思想是:尽量找好的,但不能保证是最好的。
Bootstrapping
在统计学中,bootstrapping可以指任意的用于检验或测量的随机放回抽样。
中央极限定理 Central Limit Theorem
样本均值的分布会随着总体分布的不同而不同,但随着样本数目
n
的增加,样本均值
即当
n
较大时,样本均值服从:
这里的
μ
和
σ
分别是总体均值和总体方差。
估计 Estimation
根据样本的信息来推测总体的参数。例如总体很大,无法遍历总体得到感兴趣的总体参数,即可通过对总体进行一定程度上的随机抽样来得到样本(数目较少或是较容易处理),再根据样本的信息来推测总体。
常用的估计方法主要有
1.点估计 Point Estimation
根据样本计算统计量来推测总体参数,但这种方法只能提供一个可能的数值,可能存在根据新的样本计算得到的点估计与之前得到的点估计不一致的情况,此时,哪个点估计的更可信?哪个点估计和真实值更接近?未知。
点估计无法提供抽样估计的误差及可信度,因此需要将点估计包含一个邻域,如何确定邻域的大小?即产生区间估计。
2.区间估计 Interval Estimation
置信区间 Confidence Interval,例如95%的置信区间认为均值
μ
在
[μa,μb]
内,表明重复抽样生成100个置信区间,约有95个置信区间包含了真实的均值
μ
当总体方差未知的情况下,统计量
X¯¯−μs/n√∼t(n−1)
服从自由度为
n−1
的
t
分布。
这里的
在
t
分布的检验中,一般认为样本大于30即为大样本(在其他情况下不能这么简单的认为是大样本),因为在
相关系数 Correlation Coefficient
指的是线性回归中的
R2
或
r2
指的是依赖变量能够被独立变量解释的方差百分比。
R2
和
r2
的意义是相同的。一般而言,在进行单变量回归时(即依赖变量在RHS只有一个独立变量)使用
r2
,在进行多变量回归时(即依赖变量在LHS有两个或以上的独立变量)使用
R2
。
方差分析 ANOVA ANalysis Of VAriance
MATLAB做线性回归时,需要在自变量矩阵加入与回归方程中常数项相乘的1向量。在MATLAB的
Regress(⋅)
函数中,有说明:
X should include a column of ones so that the model contains a constant term.
线性回归
残差
ei
Residual
指观测值和预测值之间的差异:
ei=yi−yi^
为第
i
个残差。
残差的值越小表明回归模式的解释能力越强。一般用残差的平方和来评估。
在线性回归模型中,且在满足
min∑i=1n(yi−yi^)2=∑i=1ne2i
可以得到
y=α^+β^x
系数:
β^=SSxySSx
α^=y¯−β^x¯
SSxy=∑(xi−x¯)(yi−y¯)=∑xy−1n∑x∑y
SSx=SSxx=∑(xi−x¯)(xi−x¯)=∑x2−1n(∑x)2
总变异量 Total Variation
SST=SSy=∑i=1n(yi−y¯)2
回归模型解释的变异量 Explained Variation
SSR=β^SSxy=∑i=1n(yi^−y¯)2
其他因素解释的变异量 Unexplained Variation
SSE=∑i=1n(yi−yi^)2=SST−SSR
即:
总变异量 = 回归模型解释的变异量 + 其他因素解释的变异量
SST=SSR+SSE
SStot=SSreg+SSres
∑i=1n(yi−y¯)2=∑i=1n(yi^−y¯)2+∑i=1n(yi−yi^)2
决定系数
r2
Coefficient of Determination
r2=SSRSST
r2
越接近1,表明自变量和因变量的线性关系越强,越接近0,表明二者的线性关系越弱,但不代表二者不存在其他的诸如非线性的关系。
在计量经济学中,一般是多个自变量的线性回归,采用
t
检验来检验每个自变量
矩 Moment
是观察和描述随机变量的工具,不同阶的矩就是不同的观测维度。
原点矩
中心矩
时间序列数据 time series data
e.g. 若干年来每一天的股票数据(时间不同,载体相同)
即针对同一种证券,在不同时刻的数据
截面数据 cross sectional data
e.g. 某一天不同上市公司的股票数据(时间相同,载体不同)
Yi, for i=1,2,⋯,N