统计推断(statistical inference)包含括两类工作:参数估计和假设检验
一、参数估计Parameter Estimation
1、Ponit Estimation点估计:用一个具体的值来估计总体的未知参数
矩估计法Moment Estimation
矩:一个变量X的k次方的均值
2、Interval Estimation区间估计:考虑了估计存在的误差,因而不是使用一个具体的值,而是一个置信区间(Confidence Interval),区间估计的可信程度成为置信度或者置信水平(Confidence Level)
用表示,意思就是真实值有
的可能性落在置信区间内部,有
的可能性落在置信区间之外。
interval(alpha, df, loc, scale)
alpha为置信水平,df是检验量的自由度,loc是样本均值,scale为标准差(注意这里是样本平均值的标准误差stats.sem())
from scipy import stats
import numpy as np
# 构造样本x
x = [10.1, 10, 9.8, 10.5, 9.7, 10.1, 10.3, 9.9]
# 进行区间估计
stats.t.interval(0.95, len(x)-1, np.mean(x), stats.sem(x))
二、假设检验Hypothesis Testing
原理略过,上代码
1、t检验(t Test)
总体均值已知,检验单个变量的均值和目标值之间是否存在差异
单样本t检验(One sample t Test)
比较总体均值和指定的检验值之间是否存在差异
result = stats.ttest_1samp(SHRet,0) # 检验上证指数的收益率均值是否为0
配对样本t检验(Paired Sample t Test)
当两个样本并不互相独立时,我们可以使用配对样本t检验对两个总体的均值差异进行检验
result = stats.ttest_rel(SHRet, SZRet) # 检验上证指数和深成指收益率均值是否相等
独立样本t检验(Independent Samples t Test)
检验两个服从正态分布的总体均值是否存在显著差异
result = stats.ttest_ind(SHRet, SZRet) # 检验上证指数和深成指收益率均值是否相等