3.1 统计分析
多元统计分析常用的
R
包和函数
3.1.1 多元回归分析
随机误差
ε
:计量模型
案例分析:
M2
的建模与预测
残差的五数
估计参数的回归值、标准差、t检验量、p-value 单变量显著性检验
拟合优度和
F
检验
Residual standard error: 0.2046 on 128 degrees of freedom
Multiple R-squared: 0.852, Adjusted R-squared: 0.8485
F-statistic: 245.6 on 3 and 128 DF, p-value: < 2.2e-16
4.
检验模型
5. 提取模型信息
3.1.2 逐步回归分析
原理
:删选出贡献较大的重要解释变量
原则
:
F
检验,外围变量进入,内部变量退出
/
调整
R
方
/AIC
准则,越小越好,
R
主要根据
AIC
,逐步删除
变量(
R
主要依据
AIC
)
案例分析:资产负债率的影响因素探究
3.1.3 聚类分析
聚类不同于分类,可以分为
Q
型(样本,距离)和
R
型(指标变量,相似系数)
计算距离需要
消除量纲
:中心化;标准化;极差标准化
案例分析:
3
板块、
30
家公司、基于
7
指标聚类
3.1.4 因子分析
降维
:关键因素,公共因子
载荷因子矩阵
A
:每一行的平方和成为共同度,每一列的平方和是公因子方差贡献率,方差贡献率大的
因子为有效因子,
主成分分析
可以求出载荷因子矩阵
因子旋转
:像
01
两极分化,常用方差最大法
因子得分
:汤姆森回归法
综合评价
:加权,对样本观测点进行排序
案例分析:基于
10
项财务指标,对上市公司进行排名
平行分析和特征值分析显示最优因子数为3,存在一个加速因子;如果要简化,可以直接取因子数为2
3.2 经济计量分析
计量经济分析常用的
R
包与函数
3.2.1 数据测量层次
(定类、定序)、(定距、定比)
->
定性、定量
3.2.2 二元选择模型
1.
线性概率模型
:被解释变量为二元离散变量
0,1
缺陷:难以保证预测概率在
[0
,
1]
区间内,且存在异方差问题
2.
变换概率模型
:引入对称分布不可观测潜变量(使用详见计量经济学)
与
LPM
相比,相当于实施了一个累积分布函数变换
分布函数通常为标准正态分布(
Prohibit
模型)、
Logistic
分布(
Logit
模型)、极值分布
(
Extreme
模型)。
tips:
三种分布的小案例
可以看到
左尾
,逻辑分布和极值分布都比正态分布要厚;
极值分布的拐点不在(
0
,
0.5
)处,而在
(-0.36651, 0.5)
处
极值分布的右尾比正态分布要薄
Logistic
曲线最为平缓
3.2.3 计数数据模型
响应变量表示事件发生的次数,是离散的整数,常见的模型有
Poission
模型、负二项分布、
Hurdle
模型、零膨胀模型
3.2.4 广义线性模型
覆盖正太数据、二元选择、技术数据模型
一个
GLM
模型包含三部分:随机成分(自然指数分布族)
+
系统成分(线性预测函数)
+
连接函数
glm(formula,family=binomial(link="logit"),data=dfname)
拟合二元
Logit
模型
formula
:
x~y
是啥
link
:连接函数
data
:指定数据框
3.3 时序序列分析
3.4 优化理论与方法
规划求解常用包和函数