- 解决两个问题:1)通过正则化挑选重要控制变量;2)第二,对比传统的线性回归模型,用非参数推断可以解决非线性问题
操作步骤:
- 特征工程+变量归一化
- 变量分类:根据经验将变量分类为因变量y,控制变量t, 其他变量X
- 构造模型并计算残差:
Y = F 1 ( X ) Y=F_1(X) Y=F1(X), y ^ = y − F 1 ( X ) \hat{y}=y-F_1(X) y^=y−F1(X)
T = F 2 ( X ) T=F_2(X) T=F2(X), t ^ = t − F 2 ( X ) \hat{t}=t-F_2(X) t^=t−F2(X) - 构造模型拟合残差:
y
^
=
θ
t
^
+
ϵ
\hat{y}=\theta\hat{t}+\epsilon
y^=θt^+ϵ
- 如果是计算弹性系数,则 l o g ( y ^ ) = θ l o g ( t ^ ) + ϵ log(\hat{y})=\theta log(\hat{t})+\epsilon log(y^)=θlog(t^)+ϵ
一点想法
- F 1 ( X ) F_1(X) F1(X)和 F 2 ( X ) F_2(X) F2(X)都可以用机器学习的方法拟合出来,如普通的多元线性回归,lasso回归,岭回归,随机森林,XGBOOST等
- 依次设置不同变量为控制变量,分析各个元素对因变量的独立影响,是否 θ k \theta_k θk值最大的变量是与因变量的因果效应最强烈;是否还需要观察拟合模型的 R 2 R^2 R2.