一些变量筛选方法——4、模拟实验

本系列博客聚焦于变量筛选的方法,所以前文中提及PCR与PLSR由于只能使数据进行降维,而不能进行变量选择,所以下面的模拟不使用这两种方法。


模拟实验

为了比较算法的优劣,我们构造了下列模拟(前两个是线性情况,后三个是非线性情况),其中部分参考现有文献中的构造,包含了线性和非线性的情况:

1)    Y = c 1 β 1 X 1 + c 2 β 2 X 2 + c 3 β 3 I ( X 3 &lt; 0 ) + c 4 β 4 X 4 + ϵ , \text{1)}\ \ \ Y = c_1 \beta_1 X_1 + c_2 \beta_2 X_2 + c_3 \beta_3 \text{I}(X_3 &lt; 0) + c_4 \beta_4 X_4 + \epsilon, 1)   Y=c1β1X1+c2β2X2+c3β3I(X3<0)+c4β4X4+ϵ,
2)    Y = c 1 β 1 X 1 X 2 + c 3 β 2 I ( X 3 &lt; 0 ) + c 4 β 3 X 4 + ϵ , \text{2)}\ \ \ Y = c_1 \beta_1 X_1 X_2 + c_3 \beta_2 \text{I}(X_3 &lt; 0) + c_4 \beta_3 X_4 + \epsilon, 2)   Y=c1β1X1X2+c3β2I(X3<0)+c4β3X4+ϵ,
3)    Y = c 1 β 1 X 1 + c 2 β 2 X 2 + c 3 β 3 I ( X 3 &lt; 0 ) + exp ⁡ ( c 4 ∣ X 4 ∣ ) + ϵ , \text{3)}\ \ \ Y = c_1 \beta_1 X_1 + c_2 \beta_2 X_2 + c_3 \beta_3 \text{I}(X_3 &lt; 0) + \exp(c_4 |X_4|) + \epsilon, 3)   Y=c1β1X1+c2β2X2+c3β3I(X3<0)+exp(c4X4)+ϵ,
4)    Y = b 1 ∣ X 1 ∣ + b 2 X 2 2 − X 2 + b 3 exp ⁡ ( X 3 ) 3 + ϵ , \text{4)}\ \ \ Y = b_1 |X_1| + b_2 \frac{X_2}{2 - X_2} + b_3 \frac{\exp(X_3)}{3} + \epsilon, 4)   Y=b1X1+b22X2X2+b33exp(X3)+ϵ,
5)    Y = b 1 sin ⁡ ( X 1 ) + b 2 tanh ⁡ ( X 2 ) + b 3 X 1 X 2 + ϵ , \text{5)}\ \ \ Y = b_1 \sin(X_1) + b_2 \tanh(X_2) + b_3 \frac{X_1}{X_2} + \epsilon, 5)   Y=b1sin(X1)+b2tanh(X2)+b3X2X1+ϵ,

其中, I ( X 3 &lt; 0 ) I(X_3&lt;0) I(X3<0)为示性函数,当 X 3 &lt; 0 X_3 &lt; 0 X3<0时为1,否则为0; β j = ( − 1 ) U ( a + ∣ Z ∣ ) , j = 1 , 2 , 3 , 4 \beta_j = (-1)^U(a + |Z|),j=1,2,3,4 βj=(1)U(a+Z),j=1,2,3,4 a = 4 log ⁡ n / n , U ∼ Bernoulli ( 0.4 ) a = 4 \log n / \sqrt{n}\text{,} U \sim \text{Bernoulli} (0.4) a=4logn/n UBernoulli(0.4) b k ∼ Uniform ( − 1 , 1 ) b_k \sim \text{Uniform}(-1, 1) bkUniform(1,1) k = 1 , 2 , 3 k=1,2,3 k=1,2,3 以及 Z ∼ N ( 0 , 1 ) Z \sim N(0,1) ZN(0,1)。同时设置 ( c 1 , c 2 , c 3 , c 4 ) = ( 2 , 0.5 , 3 , 2 ) (c_1, c_2, c_3, c_4) = (2, 0.5, 3, 2) (c1,c2,c3,c4)=(2,0.5,3,2)

另外, X i ∼ N ( 0 , 1 ) , i = 1 , 2 , ⋯ &ThinSpace; , p X_i \sim N(0, 1),i = 1,2,\cdots, p XiN(0,1),i=1,2,,p ϵ ∼ N ( 0 , 1 ) \epsilon \sim N(0,1) ϵN(0,1)

由于最优子集选择等方法适用于维度不是非常高的情况,也为了算法能在交论文之前提交出结果。所以我们选择 n = 200 n=200 n=200,分别进行模拟。


模拟实验一:高维情况

下面取数据维数 p = 10 , 20 , 30 p=10,20,30 p=10,20,30,分别使用:最优子集选择,向前逐步回归,向后逐步回归(前三种方法我们都使用AIC指标),LASSO(使用CV,最优 λ \lambda λ的选择我们选择1倍标准误的 λ \lambda λ,即 λ 1 s e \lambda_{1se} λ1se,其效果要由于 λ m i n \lambda_{min} λmin,而由于选用了 λ 1 s e \lambda_{1se} λ1se,会导致标准较为严苛),SCAD,PDAS。由于基于Pearson相关系数的SIS,基于距离相关性的SIS,随机森林方法来进行变量选择,这三种方法只能人为指定选择出来的变量个数所以在这个模拟实验中不进行比较。

模拟重复100次,记录选出相关变量的个数平均值与方差,以及选到但选错变量的个数平均值与方差。例如:1)式表示 X 1 , X 2 , X 3 , X 4 X_1,X_2,X_3,X_4 X1,X2,X3,X4 被选出的个数,以及所有选出的变量中选错的个数。单独写出,便得到如下定义:

  • True Positive = 选出的所有变量中,正确的相关变量个数
  • False Positive = 选出的所有变量中,错误的相关变量个数
  • False Positive + True Positive = 选出的所有变量

公式一、二、三中,相关变量个数均为4个;公式四:3个;公式五:2个。下面展示模拟结果。(注:由于写课程报告的时间实在有限,模拟维数一旦过高,最优子集选择、向前逐步回归、向后逐步回归三种方法的速度会呈指数上升,所以本模拟只使用 p = 10 , 20 , 30 p=10,20,30 p=10,20,30三种情况)

方法公式1公式2公式3公式4公式5
Best SS4 ± 02.36 ± 0.892.04 ± 0.91.45 ± 0.810.73 ± 0.74
Forward4 ± 02.9 ± 0.752.27 ± 1.131.7 ± 0.920.72 ± 0.73
Backward4 ± 02.9 ± 0.762.26 ± 1.121.69 ± 0.920.72 ± 0.73
LASSO4 ± 01.07 ± 0.410.35 ± 0.540.29 ± 0.460.26 ± 0.54
SCAD4 ± 01.62 ± 0.941.95 ± 1.11.55 ± 0.691.28 ± 0.45
PDAS4 ± 02.36 ± 0.892.04 ± 0.91.44 ± 0.810.73 ± 0.74
Table 1: True Positive p = 10

方法公式1公式2公式3公式4公式5
Best SS4 ± 02.51 ± 0.872.09 ± 0.991.37 ± 0.840.75 ± 0.78
Forward4 ± 02.5 ± 0.881.81 ± 1.041.22 ± 0.840.61 ± 0.72
Backward4 ± 02.48 ± 0.91.82 ± 1.051.21 ± 0.840.6 ± 0.72
LASSO3.99 ± 0.11 ± 0.20.29 ± 0.460.26 ± 0.440.11 ± 0.42
SCAD4 ± 01.58 ± 0.851.67 ± 0.911.56 ± 0.691.26 ± 0.44
PDAS4 ± 02.5 ± 0.872.09 ± 0.991.37 ± 0.840.75 ± 0.78
Table 2: True Positive p = 20

方法公式1公式2公式3公式4公式5
Best SS4 ± 02.48 ± 0.872.16 ± 0.911.48 ± 0.830.71 ± 0.76
Forward3.99 ± 0.12.18 ± 0.821.79 ± 1.031.22 ± 0.840.52 ± 0.7
Backward3.99 ± 0.12.2 ± 0.831.77 ± 1.011.2 ± 0.80.51 ± 0.69
LASSO3.99 ± 0.11 ± 0.140.23 ± 0.420.19 ± 0.390.18 ± 0.48
SCAD3.99 ± 0.11.54 ± 0.811.66 ± 0.881.52 ± 0.611.26 ± 0.44
PDAS4 ± 02.46 ± 0.852.14 ± 0.921.46 ± 0.850.71 ± 0.76
Table 3: True Positive p = 30

方法公式1公式2公式3公式4公式5
Best SS0.94 ± 0.961.2 ± 0.981.01 ± 0.891.27 ± 1.031.52 ± 0.93
Forward0.55 ± 1.162.21 ± 1.551.59 ± 1.411.72 ± 1.61.23 ± 1.46
Backward0.55 ± 1.162.21 ± 1.551.6 ± 1.411.73 ± 1.61.23 ± 1.46
LASSO0.45 ± 0.740 ± 00.04 ± 0.20.07 ± 0.260.12 ± 0.33
SCAD1.67 ± 1.321.64 ± 1.371.16 ± 1.731.07 ± 1.70.93 ± 1.67
PDAS0.94 ± 0.961.2 ± 0.981.01 ± 0.891.25 ± 1.021.52 ± 0.93
Table 4: False Positive p = 10

方法公式1公式2公式3公式4公式5
Best SS2.64 ± 1.653.06 ± 1.452.88 ± 1.473.05 ± 1.683.28 ± 1.74
Forward1.08 ± 2.452.97 ± 2.212.53 ± 2.882.05 ± 2.161.31 ± 1.91
Backward1.08 ± 2.452.99 ± 2.212.52 ± 2.882.06 ± 2.151.32 ± 1.94
LASSO0.78 ± 1.10 ± 00.07 ± 0.260.15 ± 0.360.16 ± 0.37
SCAD2 ± 1.61.95 ± 21.17 ± 1.921.57 ± 2.491.07 ± 1.89
PDAS2.63 ± 1.653.05 ± 1.442.88 ± 1.453.06 ± 1.73.28 ± 1.74
Table 5: False Positive p = 20

方法公式1公式2公式3公式4公式5
Best SS4.55 ± 2.294.99 ± 1.764.67 ± 1.935.38 ± 2.435.16 ± 2.19
Forward1.31 ± 3.223.26 ± 2.353.14 ± 4.152.47 ± 2.711.76 ± 3.64
Backward1.31 ± 3.223.24 ± 2.293.16 ± 4.112.49 ± 2.721.77 ± 3.63
LASSO1.16 ± 1.770 ± 00.15 ± 0.360.14 ± 0.350.23 ± 0.42
SCAD2.8 ± 2.372.31 ± 2.611.53 ± 2.21.76 ± 2.441.18 ± 2.01
PDAS4.59 ± 2.345.03 ± 1.784.66 ± 1.885.35 ± 2.365.18 ± 2.25
Table 6: False Positive p = 30

从上面的结果中可以看出,最优子集选择的结果和PDAS的方法是几乎完全一样的,但前者根本跑不了50维以上的数据,这个从算法理论上也可以看出。这两种方法虽然选对的很多,但是选错的也相较于其他方法会更多,所以可以理解为是比较“激进”的方法。而逐步回归法在维度低的时候效果还不错,但是一旦维度有所提高,效果就渐渐下降。而LASSO可以发现,它是一种比较保守的方法,选择的总变量都比其他方法要少很多,最后选出来的变量稀疏性非常强(也因为我们通过CV选择的$\lambda$是$\lambda_{1se}$)。而最后SCAD效果就要明显好于LASSO,基本上算是$L^0$和$L^1$的权衡。

下面来比较一下六种方法的耗时:

方法公式1公式2公式3公式4公式5
Best SS0.00070.00190.00130.00170.0009
Forward0.00090.00120.00070.00110
Backward0.00030.00060.00150.00110.0005
LASSO0.04180.04580.04290.04730.0432
SCAD0.03220.03230.0350.03210.0329
PDAS0.12380.12430.12630.13060.1262
Table 7: 方法耗时,p = 10

方法公式1公式2公式3公式4公式5
Best SS0.00060.0030.00230.00330.003
Forward0.00020.00040.00150.00040.0002
Backward0.00160.00020.00060.00060
LASSO0.04440.04510.04660.04410.0444
SCAD0.04210.04320.04410.0440.0431
PDAS0.13570.1350.13520.13520.1351
Table 8: 方法耗时,p = 20

方法公式1公式2公式3公式4公式5
Best SS0.06990.25190.2380.33650.3291
Forward0.00080.00070.00050.00010.0012
Backward0.00050.00070.00120.00070.0002
LASSO0.04640.04890.04810.04780.0481
SCAD0.05310.05720.05940.06110.0608
PDAS0.14590.14590.14790.14610.1461
Table 9: 方法耗时,p = 30

其实从这个耗时中,只能初步发现最优子集选择和逐步回归,它们在维数低的时候最快,但当维数提升了之后,速度就大大下降(由于时间原因,应该还要做 p = 50 , 100 p=50,100 p=50,100才更有比较价值)。而LASSO和SCAD两种方法速度相当,PDAS在高维时候,速度要明显快于最优子集选择。

所以综上可以发现,如果要做最优子集选择,我们可以直接使用PDAS方法,然后面对维数较高的情形时,或者 p &gt; n p&gt;n p>n的时候,我们可以使LASSO,SCAD与PDAS方法。这里值得一提的是,LASSO在模拟的表现中相对不突出,但在平时做项目的过程中发现,针对实际数据,其实LASSO的效果也非常突出。


模拟实验二:超高维情况

下面取数据维数 p = 100 , 200 p=100,200 p=100,200,由于最优子集选择,向前逐步回归,向后逐步回归做不动超高维的情况,LASSO、SDAR与PDAS,用下述模拟方法无法进行比较。所以这里使用:基于Pearson相关系数的SIS,基于距离相关性的SIS,随机森林方法三种方法来进行变量选择。

模拟重复100次,记录每次将所有相关变量全部选出,相关变量重要性(相关性)排最后的在第几位。例如:1)式表示 X 1 , X 2 , X 3 , X 4 X_1,X_2,X_3,X_4 X1,X2,X3,X4全部被选出,假设 X 1 X_1 X1重要性(相关性)排在第3位置; X 2 X_2 X2排第1; X 2 X_2 X2排第1; X 3 X_3 X3排第15; X 4 X_4 X4排第10; X 5 X_5 X5排第9,则此时记录15,这个值越小,表示模型越出色。

公式Cor-SISDC-SISRF
公式163.82 ± 27.6737.3 ± 31.8136.55 ± 31.43
公式275.07 ± 18.6270.48 ± 22.1255.6 ± 27.41
公式375.85 ± 20.452.75 ± 28.4274.68 ± 19.97
公式471.19 ± 23.6638.37 ± 35.8265.89 ± 25.22
公式559.02 ± 25.714.7 ± 27.0257.42 ± 27.1
Table 10: 全部相关变量被选出所需最少个数,p = 100

公式Cor-SISDC-SISRF
公式1140.64 ± 46.9786.95 ± 68.7185.57 ± 67.67
公式2150.41 ± 37.84140.68 ± 45.46116.96 ± 60.33
公式3148.57 ± 39.09104.16 ± 56.48151.01 ± 39.22
公式4140.25 ± 45.7271.08 ± 63.78136.04 ± 48.36
公式5125.97 ± 53.437.4 ± 60.39118.68 ± 60.96
Table 11: 全部相关变量被选出所需最少个数,p = 200

通过上表发现,复杂非线性的情况,DC-SIS的表现要明显好于其他两种方法,这是由于DC统计量的性质决定的。而在理论模型相对简单的情况下,RF的效果也表现的不错。

但光看效果,我们不能对一个算法做出评价,还需要看其运算耗时,其耗时如下表所示:

公式公式1公式2公式3公式4公式5
Cor-SIS0.00260.00310.00190.00360.0033
DC-SIS0.26130.26160.26290.26080.2635
RF0.35560.36350.39510.39920.4097
Table 12: 三种方法耗时,p = 100

公式公式1公式2公式3公式4公式5
Cor-SIS0.00460.00510.00730.00440.0074
DC-SIS0.56240.56060.56510.56350.5606
RF0.46520.47820.53820.53540.558
Table 13: 三种方法耗时,p = 200

通过比较可以发现,最简单的SIS的所用时是最短的,但其实DC-SIS处理数据虽然比较长,也在能接受的范围内。相较于前面的实际选取变量的效果优势,其实是可以适当牺牲一些运算性能。而DC-SIS类似算法都是进行变量初步筛选,所以不能漏掉相关变量,这点非常重要!所以后面针对超高维的数据情况,我们会先用DC-SIS先进行变量初步筛选,将维数降下来,然后再使用LASSO进行回归。


后面我们会进行真实案例的分析。传送门:一些变量筛选方法——5、真实数据与总结

  • 6
    点赞
  • 48
    收藏
    觉得还不错? 一键收藏
  • 8
    评论
评论 8
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值