statsmodels.formula.api模块中ols参数的解释
参考文献:【statsmodel之summary参数解释】
英文名 中文解释 公式或说明 Dep. Variable 输出变量的名称 Model 模型名称 Method 方法 Date 日期 Time 时间 No. Observations 样本数目 Df Residuals 残差自由度 No. Observations - (Df Model + 1) Df Model 模型参数个数,相当于输入的
X
X
X 的元素个数 R-squared 可决系数 ,用来判断估计的准确性,范围在 [0,1] 约接近1 ,说明对y的解释能力越强,拟合越好
R
2
=
∑
(
y
^
−
y
‾
)
2
∑
(
y
−
y
‾
)
2
=
1
−
∑
(
y
−
y
^
)
2
∑
(
y
−
y
‾
)
2
R^2=\frac{\sum(\hat{y}-\overline{y})^2}{\sum(y-\overline{y})^2}=1-\frac{\sum(y-\hat{y})^2}{\sum(y-\overline{y})^2}
R 2 = ∑ ( y − y ) 2 ∑ ( y ^ − y ) 2 = 1 − ∑ ( y − y ) 2 ∑ ( y − y ^ ) 2 Adj. R-squared 通过样本数量与模型数量对R-squared进行修正,如果添加一个新的变量,但调整R方变小,这个变量就是多余的;如果添加一个新的变量,但调整R方变大,这个变量就是有用的
R
a
d
j
2
=
1
−
(
n
−
1
)
(
1
−
R
2
)
n
−
p
−
1
R_{adj}^2=1-\frac{(n-1)(1-R^2)}{n-p-1}
R a d j 2 = 1 − n − p − 1 ( n − 1 ) ( 1 − R 2 ) F-statistic 衡量拟合的显著性的重要程度。值越大,
H
0
(模型不是显著的)
H_0(模型不是显著的)
H 0 (模型不是显著的) 越不可能
F
=
∑
(
y
^
−
y
‾
)
2
∑
(
y
−
y
^
)
2
/
(
n
−
2
)
F=\frac{\sum(\hat{y}-\overline{y})^2}{\sum(y-\hat{y})^2 / (n-2)}
F = ∑ ( y − y ^ ) 2 / ( n − 2 ) ∑ ( y ^ − y ) 2 Prob (F-statistic) 当prob(F-statistic)<α时,表示拒绝原假设,即认为模型是显著的;当prob(F-statistic)>α时,表示接受原假设,即认为模型不是显著的 Log-Likelihood 对数似然比 AIC AIC可以表示为:
A
I
C
=
2
k
−
2
l
n
(
L
)
AIC=2k-2ln(L)
A I C = 2 k − 2 l n ( L ) ,其中:k是参数的数量,L是似然函数。 衡量拟合优良性,选择AIC 最小的模型, 引入了惩罚项,避免参数过多,过拟合
A
I
C
=
e
(
2
k
T
)
∑
t
=
1
T
e
t
2
T
AIC=e^{(\frac{2k}{T})} \frac{\sum_{t=1}^{T} e_t^2}{T}
A I C = e ( T 2 k ) T ∑ t = 1 T e t 2 BIC 贝叶斯信息准则,BIC相比AIC在大数据量时对模型参数惩罚得更多,导致BIC更倾向于选择参数少的简单模型。
B
I
C
=
k
l
n
(
n
)
−
2
l
n
(
L
)
BIC=kln(n)-2ln(L)
B I C = k l n ( n ) − 2 l n ( L ) coef 系数,const表示常数项 std err 系数估计的基本标准误差 t t 统计值,衡量系数统计显著程度的指标 P>|t| 如果它小于置信水平,通常为0.05,则表明该术语与响应之间存在统计上显著的关系。 [0.025 0.975] 95%置信区间的下限和上限值 Omnibus 属于一种统计测验,测试一组数据中已解释方差是否显著大于未解释方差 Prob(Omnibus) 将上面的统计数据变成概率 Durbin-Watson 残差是否符合正态分布,在2左右说明是服从正态分布的,偏离2太远,解释能力受影响是否自相关, 受到前后影响 ,与表中上限进行比较,如果D>上限 不存在相关性 .D<下限 存在正相关性,在上下限之间,无法得出结论 Skew 偏度, 关于平均值的数据对称性的度量 Kurtosis 峰度, 分布形状的量度,比较接近均值与远离均值的数据量。如果大于三,说明峰的形状比较陡峭,形状较尖 正态分布的峰度(系数)为常数3,均匀分布的峰度(系数)为常数1.8 Jarque-Bera (JB) Jarque–Bera检验是对样本数据是否具有符合正态分布的偏度和峰度的拟合优度的检验。 其统计测试结果总是非负的。如果结果远大于零,则表示数据不具有正态分布。 Prob(JB) 上面统计量的概率形式 Cond. No 多重共线性测试(如果多个参数,这些参数是否相互关联)