在所有统计学习工具中,回归分析是最流行的方法之一,被广泛用于响应变量y和一系列协变量x之间的关系进行建模。在文献中各种回归分析的模型和方法都在发展,从经典的线性回归到非参数回归。超高维协变量回归分析在农业、生物医药、经济、金融、遗传学等科学领域都有应用。然而在协变量维数p很大时,大多数回归模型和方法可能会严重受损。从协变量中选择一个预测因子子集是有必要的。在过去的二十年中,已经提出了许多正则化方法,如LASSO, SCAD,自适应LASSO 和Dantzig选择,用于变量选择。然而,当协变量是超高维时,Fan, Samworth, and Wu(2009)指出,这些正则化方法同时受到计算方便性、统计准确性和算法稳定性的挑战。
为了处理超高维度,Fan和Lv(2008)在Sure Independence Screening for Ultrahigh Dimensional Feature Space中建议在实施详细的变量选择之前筛选出最不重要的协变量。他们提出了一种可靠的独立筛选程序(SIS),用于线性模型,使用每个协变量与响应之间的边际Pearson相关性。自Fan和Lv(2008)的开创性工作以来,特征筛选在过去十年中受到了广泛关注。特别是Wang(2009)在Forward Regression for Ultra-high Dimensional Variable Screening中提出了正向回归,Chang, Tang, and Wu(2013)在Marginal Empirical Likelihood and Sure Independence Feature Screening中提出了边际似然比检验来筛选线性模型中不重要的协变量。Li等人(2012)在Robust Rank Correlation Based Screening中建议在存在异常值的情况下用Kendall等级相关代替Pearson相关。Ma, Li, and Tsai(2017)在Variable Screening Via Quantile Partial Correlation中提出在线性分位数回归中进行特征筛选的分位数偏相关。Fan and Song(2010)、Xu and Chen(2014)分别在Sure Independence Screening in Generalized Linear Models With NP-dimensionality和The Sparse MLE for Ultra-high-dimensional Feature Screening中提出了使用极大边际似然估计来进行变量筛选,Mai and Zou(2013)在The Kolmogorov Filter for Variable Screening in High-Dimensional Binary Classification中提出了Kolmogorov - Smirnov统计量来筛选广义线性模型中不重要的特征。Fan, Feng, and Song(2011)和He, Wang, and Hong(2013)分别在Nonparametric Independence Screening in Sparse Ultra-high Dimensional Additive Models和Quantile-adaptive Model-free Variable Screening for High-dimensional Heterogeneous Data中建议对加性模型进行非参数筛选。Song, Yi, and Zou(2014)在On Varying-Coefficient Independence Screening for High-dimensional Varying-Coefficient Models中提出了对变系数模型的独立筛选程序。如果工作模型接近潜在的真实模型,这些基于模型的筛选程序是有效的,否则可能是非常无效的。在实际应用中,我们很少能知道正确的模型形式,特别是在面对高维数据。为了最大限度地减少模型假设错误的影响,已经开发了几种无模型筛选方法。例如,Zhu等人(2011)在Model-free Feature Screening for Ultrahigh Dimensional Data中对一般类型的指标模型提出了一种确定的独立排序和筛选程序。Li, Zhong, and Zhu(2012)在Feature Screening Via Distance Correlation Learning中提出用距离相关性进行特征筛选,可以同时处理分组协变量和多变量响应。Shao and Zhang(2014)在Martingale Difference Correlation and Its Use in High Dimensional Variable Screening中引入鞅差异相关,对响应的均值函数进行筛选。当我们缺乏关于回归结构的先验信息时,这些无模型方法更受青睐。
在现有研究中,对于超高维数据,一般的做法是先通过变量筛选方法,将变量维度降到一个相对温和的程度,再通过一些精确的变量选择方法进行降维。根据不同文献,我们对2008年到现在的部分变量筛选方法进行介绍。其中第1和2节介绍了SIS方法在线性模型和广义线性模型中的应用;第3节介绍了正向回归方法;第4节介绍了在非参数模型上提出了NIS变量筛选方法;第5节介绍了一种基于距离相关性的无模型变量筛选方法;第6节介绍了一种对主效应和二阶交互效应都选择的变量筛选方法;第7节介绍了条件确定独立筛选方法;第8节介绍了基于累积散度的无模型变量筛选方法;
目录
3.前向回归(Forward Regression, FR)
4.非参数独立筛选(Nonparametric Independence Screening, NIS)
5.基于距离相关的特征筛选方法(Distance Correlation-SIS, DC-SIS)
8.基于累计散度(Cumulative Divergence, CD)的正向筛选
1.确定独立筛选(SIS)
Fan and Lv (2008)在Sure independence screening for ultrahigh dimensional feature space中提出了确定筛选方法。这篇论文的目的是通过快速有效的方法将维度p从一个大的或巨大的尺度(例如,,对于一些
)降低到一个相对大的尺度d(例如
)。为此,该论文引入了确定筛选的概念,提出了一种基于相关学习的确定筛选方法,该方法可以过滤掉与响应相关性较弱的特征。这种相关性筛选称为确定独立筛选(sure independence screening, SIS)。相较于变量选择方法的Oracle性质,该论文为变量筛选方法提出了一种确定筛选性质,即所有重要变量经过变量筛选后以趋于1的概率存活。
对于回归模型
当维度p大于样本容量n时,真正的困难来自四个事实。首先,设计矩阵X是矩形的,列比行多。在这种情况下,矩阵是巨大且奇异的。协变量和响应之间的最大伪相关可能很大,这是由于维数和与不重要预测因子相关的重要预测因子的存在。这使得变量选择变得困难。其次,随着n的增长,总体协方差矩阵Σ可能会变得病态,这增加了变量选择的难度。第三,最小非零绝对系数
可能随n衰减,并下降到噪声水平附近,即
阶。第四,
的分布可能有重尾。因此,在一般情况下,当p>>n时,如何准确估计稀疏参数向量β是一个挑战。
通过确定筛选,我们指的是在应用概率趋向于1的变量筛选程序后,所有重要变量都存在的性质。如果降维方法具有一定的筛选性能,则该方法是可取的。下面我们将介绍一个简单的确定筛选方法,使用组件回归或等效相关学习。将每个输入变量标准化,使样本均值为0,样本标准差为1。令,
可以看出,在对协变量和响应变量进行标准化后,表示的是协变量
与响应变量Y的相关系数。
对于任意给定的,我们将向量ω的p个分量大小按递减顺序排序,并定义一个子模型
其中[γn]表示γn的整数部分。这是收缩完整模型{1,…,p}到d =[γn]< n的子模型。这种相关学习根据特征与响应变量的边际相关性对特征的重要性进行排序,过滤掉与响应变量的边际相关性较弱的特征。我们称这种相关筛选方法为SIS,因为每个特征都被独立地用作预测因子,以决定它对预测响应变量的有用程度。
为了直观的理解为什么协变量和响应变量的边际系数可以用来进行变量筛选,给出如下定义
上式为岭估计的结果,在时,
;而在
时,
。可以看出,在
很大时,对
排序也就是在对岭估计的系数进行排序。由变量的稀疏性假设可知,大多数变量的系数是等于零的,因此对系数绝对值大小进行排序可以对变量进行筛选。
2.确定独立筛选在广义线性模型(SIS in GLM)
Fan and Song (2010)在Sure independence screening in generalized linead models with NP-dimensionality中将SIS方法扩展到了广义线性模型中。
对于广义线性模型,有
此时,响应变量与协变量不再是线性关系,所以无法再用边际相关系数来进行变量筛选。需要用其他方式来表示协变量与响应变量之间的边际相关性。同样将协变量进行标准化。
该论文将边际模型称为具有协变量分量的拟合模型。最大边际似然估计量(MMLE) ,
,定义如下
其中,
。通过下列子集对变量进行选择
其中为预先定义的阈值。这种独立学习根据特征的边际回归系数的大小对特征的重要性进行排序。通过独立学习,我们通过选择较大的
,将参数空间的维数从
(可能是数十万)大幅降低到更小的数字,因此计算更加可行。尽管边际模型的解释和含义与联合模型有偏差,但在温和的条件下,联合模型的非稀疏信息可以传递给边际模型。因此,它适用于变量筛选的目的。该论文同样证明了在一定条件下,对于适当选择的
,该变量筛选方法具有确定筛选性质。
在类似的广义线性模型变量筛选问题中,Fan, Samworth和Wu(2009)建议通过对边际似然排序来筛选变量。这种方法可以被看作是一种边际似然比筛选,因为它建立在对数似然增量的基础上。该论文表明似然比筛选与MMLE筛选是等价的,因为它们都具有确定的筛选性质,并且两种方法所选变量的数量具有相同的数量级。具体做法如下,
可以通过对向量从大到小进行排序来对变量进行选择,即
其中是预先给定的阈值。
3.前向回归(Forward Regression, FR)
前面介绍的变量筛选方法是基于边际相关关系的确定独立筛选方法,接下来介绍前向回归的变量筛选方法。Wang (2009)在Forward Regression for Ultra-High Dimensional Variable Screening中提出了正向回归变量筛选方法。对于回归模型
其中。假设
。前向回归的算法如下
Step 1.(初始化)令。
Step 2.(正向回归)
(2.1) 评估。在第k步,给出。对任意的
,构造一个候选模型
,然后计算
,其中
为投影矩阵,,
(2.2) 筛选。令,并更新
Step 3.(解决路径) 第2步迭代n次,总共有n个嵌套的候选模型。然后通过求解路径
该正向回归方法通过初始的空集,通过计算最小的RSS值,一步一步的向集合内添加变量来对变量进行筛选。该论文的理论分析表明,即使预测因子维数远远大于样本容量,FR也能一致地识别所有相关预测因子。特别是,如果真实模型的维数是有限的,FR可以在有限的步骤内发现所有相关的预测因子。为了从FR生成的模型中实际选择“最佳”候选者,可以使用Chen和Chen(2008)最近提出的BIC标准。由此产生的模型可以作为一个很好的起点,从这里可以直接应用许多现有的变量选择方法(例如,SCAD和Adaptive LASSO)。
4.非参数独立筛选(Nonparametric Independence Screening, NIS)
前面的变量筛选方法都是基于线性或广义线性模型,在很多情况下,这些模型都并不适用。当协变量不是联合正态时,即使联合回归中线性模型成立,边际回归也可能是高度非线性的。因此,基于非参数边际回归的SIS成为了一个自然的候选。
在实践中,通常很少有先验信息表明协变量的影响是采取线性形式或属于任何其他有限维参数族。通过使用更灵活的非参数模型,有时可能会有实质性的改进。Fan et al. (2011)在Nonparametric Independence Screening in Sparse Ultra-High-Dimensional Additive Models中提出了非参数独立筛选的方法。由于假设模型是非参数形式的, 比参数模型更加灵活。假设模型如下
同样考虑协变量和响应变量之间的边际关系,为了快速识别模型中的重要变量,我们考虑以下p维边际非参数回归问题:
其中P表示的联合分布和
是测度P下的平方可积函数类。为了获得边际非参数函数,通过B样条基对边际模型中的非参数进行拟合。设
为
维的多项式样条空间,
表示归一化B样条基,且
。对于任意
,有
此时边际回归问题可以表示为
根据最小二乘法,求解上式可得
其中E为真实模型下的期望。
现在可以通过如下方式对变量子集进行选择
其中,
是预先给定的阈值。
这种独立筛选依据边际非参数回归的边际强度对重要性进行排序。这种筛选也可以看作是根据边际非参数估计与响应变量
的相关性大小进行排序,因为
。从这个意义上说,提出的NIS过程与Fan和Lv(2008)提出的相关学习有关。
另一种筛选方法是根据分部非参数回归的残差平方和的下降顺序进行排序,其中我们选择一组变量:
其中为边际拟合的残差平方和,
为预定义的阈值。可以简单地表示
。可以看出这两种变量筛选方法是等价的。给论文同样证明了该变量筛选方法具有确定筛选性质。
5.基于距离相关的特征筛选方法(Distance Correlation-SIS, DC-SIS)
前面的非参数独立筛选方法比基于参数模型的变量筛选方法更加灵活,但仍然限制了协变量之间是线性关系。Li (2012)在Feature Screening via Distance Correlation Learning中提出了一种基于距离相关(DC)的无模型变量筛选方法。有论文证明了当且仅当两个随机向量相互独立时,这两个随机向量的DC等于零。此外,两个单变量正态随机变量的DC是这两个正态随机变量Pearson相关系数绝对值的严格递增函数。这两个显著的特性促使我们在超高维数据中使用DC进行特征筛选。
我们将基于DC的SIS过程称为DC-SIS。DC-SIS可以像SIS一样容易实现。当响应和预测变量均为正态分布时,它等价于SIS。然而,DC-SIS具有包括SIS在内的现有筛查程序所不具备的吸引人的特征。例如,上述筛选程序都不能处理分组预测因子或多变量反应。所提出的DC-SIS可以直接用于筛选分组变量,也可以直接用于具有多元响应的超高维数据。多变量响应和/或分组预测因子的特征筛选在路径分析中非常有意义。更重要的是,DC-SIS可以用于筛选特征,而无需指定响应和预测因子之间的回归模型。与基于模型的筛选程序相比, DC-SIS是一种无模型的筛查程序。这一优点使所提出的过程对模型错误规范具有鲁棒性。
接下来给出两个随机变量u和v之间的距离协方差的定义
其中和
是u和v的维数,
和
是u和v的特征函数,
是u和v的联合特征函数,
,
则一阶矩有限的u和v之间的DC定义为
DC的两个显著特性促使我们在特征筛选过程中使用它。第一个是DC和Pearson相关系数之间的关系。对于两个单变量正态随机变量U和V,有
随着严格地增加。这一性质表明,基于DC的特征筛选过程等价于具有正态分布预测因子和随机误差的线性回归的边缘皮尔逊相关学习。
DC的第二个显著性质是dcorr(u, v) = 0当且仅当u和v是独立的。我们注意到两个单变量随机变量U和V是独立的当且仅当U和V的严格单调变换T (V)是独立的。这意味着,在u和v之间存在非线性关系的情况下,基于dc的特征筛选过程可以比边缘皮尔逊相关学习更有效。
为通过距离相关性进行变量筛选,对,令
基于随机样本。我们考虑用
作为边际效用来对
在总体水平上的重要性进行排序。我们使用DC是因为它允许y到x的任意回归关系,不管它是线性的还是非线性的。DC还允许单变量和多变量响应,无论它是连续的、离散的还是分类的。此外,它还支持分组预测器。因此,这种基于DC的筛选过程是完全无模型的。我们选择了一组重要的预测因子,有很大的
。也就是说,我们定义
其中c和是预先给定的阈值。
DC-SIS可以像基于Fan和Lv提出的Pearson相关的确定独立筛选(SIS)程序一样容易实现。而DC-SIS可以显著提高SIS。Fan和Lv基于线性模型建立了SIS的确定筛选特性,但在更一般的设置下,包括线性模型,确定筛选特性对DC-SIS是有效的。此外,DC-SIS的实现不需要对响应或预测因子进行模型规范(如线性模型或广义线性模型)。在超高维数据分析中,这是一个非常吸引人的特性。此外,DC-SIS可直接用于筛选分组预测变量和多变量响应变量。该论文还建立了DC-SIS的确定筛选性质。
6.交互筛选(Interaction Screening)
现有的大多数变量选择方法都是为了选择主效应而设计的。然而,在复杂情况下,主要效应可能不足以表征反应和预测因素之间的关系,在这种情况下,预测因素共同起作用。交互模型提供了更好的响应面近似,提高了预测精度,并为预测因子之间的相互作用提供了新的见解。在超高维数据分析中,识别重要的相互作用效应是极具挑战性的,在实践中最受关注的是计算的可行性。对于有n个观测值和p个预测器的数据集,包含所有线性项和二阶项的增广设计矩阵的大小为。当p很大时,比如超过几十个,交互的数量是巨大的,超出了标准机器和软件工具的存储和分析能力。理论上,在高维环境下,交互选择一致性很难实现。在随机设计中,交互效应具有比主效应更重的尾部和更复杂的协方差结构,这使得理论分析变得困难。Hao and Zhang (2014)在Interaction Screening for Ultrahigh-Dimensional Data中提出了交互筛选方法。研究了在预测因子为高维情况下,对主效应和二阶效应进行选择,并从理论上证明了该方法具有确定筛选性质。
给定n个iid观测值时,我们考虑一个具有线性和二阶项的回归模型
其中表示协变量,
表示二次项和二阶交互作用项。且假设协变量和响应变量都标准化,二次项和二阶交互作用项是居中的,即
。为便于表示,令
任何一项或
均视为相关结果;相应的预测因子可以是线性的,二次的,或者相互作用的。我们定义非零线性和2阶效应为
则完整的模型为,真实模型为
。对任意模型
,用
表示模型大小,即有
。假设
该论文提出了iFORT和iFORM两种基于正向选择的交互选择算法。使用来表示候选索引集,该索引集包含在接下来的步骤中要考虑选择的所有项。
算法1:两阶段iFOR (iFORT)
Stage 1. 定义。在
上进行正向选择(FS),得到的解路径为
,选择主效应
.
Stage 2.更新。在
上应用正向选择法选择二次项和交互项。用
表示解路径.
这个方法主要是分成两个阶段来对主效应和2阶效应进行选择。,同时在每个阶段中通过正向选择方法对效应进行选择。iFORT简单、快速、可行,可用于高维数据分析。如果模型是稀疏的,重要线性效应的数量会很小,所以阶段2考虑的项的数量将远远小于
。该论文同样研究了iFORT变量筛选方法的筛选性质。
iFORT在两个阶段分别选择主效应和order-2项。或者,可以根据边际原则选择它们,这导致了另一种新的算法iFORM。iFORM的主要思想是将FS应用于由动态候选集c索引的模型(2.1)的子模型。在步骤t中,我们分别使用St、Mt和Ct表示所有选定效果、选定主效果和当前候选集的索引集。最初,C = P1,即所有主效应。然后,通过增加模型中主要效应之间的双向交互作用,候选集C逐渐增长。
算法2:在边际原则下的iFOR (iFORM)
iFORM的主要思想是将FS应用于由动态候选集索引的子模型。在步骤t中,我们分别使用
和
表示所有选择的效应、选择的主效应和当前候选集的索引集。最初,
,即所有主效应。然后,通过增加模型中主要效应之间的二阶交互效应,候选集
逐渐增长。换句话说,我们通过定义
来更新
。
Step 1.(初始化)令.
Step 2.(选择)在第t步,在给出时,使用正向回归从
中选择一个预测因子进入模型。我们将选择一个加入到
来得到
。如果新选择的预测因子是主效应,我们也会更新
和
。否则,
,
.
Step 3.(解路径)迭代步骤2,得到解路径.
在上述算法中,选择D作为(重要效应总数)的合理上限,终止过程。iFORM的一个直接优势是它允许交互提前进入模型,从而更容易选择弱相关的主效果。此外,当我们沿着解路径确定最优模型时,我们只需要使用一次模型大小选择标准BIC,而对于iFORT,我们需要使用两次BIC,即使解路径是正确的,在实践中可能会造成额外的误差。该论文同样研究了iFORM变量筛选方法的筛选性质。
iFORM方法通过对主效应和二阶效应一起放入待选效应中一起选择,且随着步骤的进行,待选集里的效应也在动态变化。为了从FS路径中选择最优模型,该论文考虑了BIC的使用。文献中提出了两种类型的BIC,一种是标准BIC
以及专为高维数据设计的BIC
其中是完整模型中预测因子的个数。
其中是完整模型中预测因子的个数。两个BIC的唯一区别是BIC2中多了一项
。Chen和Chen(2008)通过控制错误发现率(FDR)推导出BIC2,并证明
,对于某些ξ > 0,是选择一致的。由于我们处理的是超高维数据,所以iFORM使用BIC2, iFORT的第一阶段使用BIC2。在iFORT的第二阶段,由于候选预测因子的数量在第一阶段之后已经大幅减少,因此BIC1更合适。
7.条件确定独立筛选(CSIS)
Barut et al. (2016)在Conditional Sure Independence Screening中提出了条件确定独立筛选方法。该方法是前面介绍的确定独立筛选方法的自然延伸。当条件集不包含变量时,它就是SIS。它为每个变量的贡献提供了另一种衡量方法,并在无条件变量无效时提供了有用的替代方法。当研究人员从以前的调查中知道某些变量对结果负责时,应该考虑到这一知识。条件筛选通过对存在
的每个变量的条件边际效用进行排序,招募额外的变量来增强
的预测能力。
条件筛选显著拓宽了筛选方法。由于它不要求(尽管更倾向于)包含活动变量,人们可以通过对C的不同选择来探测变量的效用。在没有关于变量有用性的先验知识的情况下,人们可以像Fan和Lv(2008)那样采用那些在筛选和选择中幸存下来的变量。人们也可以从正向回归(Wang 2009)或最小角度回归(LARS)算法(Efron et al 2004)中选择前几个变量。在许多情况下,我们有大量的统计证据表明,前几个变量是重要的,可以作为
。
有两个原因导致了CSIS方法的出现。首先,SIS方法筛选出那些对响应有很大影响但与响应相关性较弱的变量,但也可能有很大的假阳性。也就是说,招募那些具有强大边际效用,但是在给定其他变量情况下,条件的弱依赖于响应变量。其次,CSI方法充分运用了先验信息,来获得一个更好的筛选效果,且该论文证明了,即使随机的选择条件变量,对于变量筛选仍然是有益的。
对于广义线性模型,响应变量服从如下指数族分布
当模型是典则连接时,。假设参数
是稀疏的,即集合
是小的。定义条件变量
和剩余变量
,不失一般性,令C是前q个变量的集合,D是剩余p-q个变量的集合。
对剩余变量进行标准化,即。
条件极大边际似然估计由极大化负边际似然得到,
其中。
则变量筛选结果如下
其中为预先给定的阈值。
也可以采用第二节中介绍的选取大的边际似然的方法来进行变量筛选。同样,CSIS方法具有确定筛选性质。
8.基于累计散度(Cumulative Divergence, CD)的正向筛选
特征筛选在超高维数据分析中起着重要作用。由于模型结构复杂,噪声水平高,现有的筛选方法往往存在模型不规范和异常值的存在。为了解决这些问题,Zhou et al. (2020)在Model-Free Forward Screening Via Cumulative Divergence中提出了一种名为累积发散度(CD)的新度量,并开发了一种基于CD的正向筛选程序。这种正向筛选方法是无模型的,并能抵抗响应中异常值的存在。它还将协变量之间的联合效应纳入筛选过程。通过数据驱动阈值,新方法可以自动确定筛选后应保留的特征数量。这些优点使得基于CD的筛查在实践中很有吸引力。在一定规则条件下,证明了该方法具有一定的筛选性能。
基于CD的变量筛选方法优点在于:(1)考虑了协变量之间的联合相关性。(2)所提出的正向筛选过程是无模型的,因此对错误模型具有鲁棒性。(3)通过CD来量化均值独立的偏差。CD对条件变量中异常值的存在具有鲁棒性。
8.1 Cumulative Divergence
在通过CD进行变量筛选前,要对CD进行定义。在将要开发的正向筛选程序的每一步中,我们要对变量的独立性进行测试,即
令是
的独立副本,假设
,
表示X的支撑集。有
这促使我们定义累积协方差(CCov)和CD如下。
从上面的定义可以看出,只用到了X的秩的信息,因此CD对于X中异常值是稳健的。
该论文也指出了CD具有一些很好的性质,
(1)CD(Y | X)是检测Y的条件均值函数是否函数上依赖于X的有用度量。当且仅当E(Y | X) = E(Y)时,CD(Y | X) = 0。
(2)CD对于X的严格单调变换是不变的。这个不变性质与E(Y | X) = E{Y | M(X)}这一事实相匹配,然而,其他流行的相关度量不具有这种性质,例如Pearson相关、鞅差或距离相关。这一特性意味着CD对模型错误规范和异常值的存在具有鲁棒性,因为它仅使用X的秩而不是观测值。
(3)当X和Y是联合正态时,,CD与通过Pearson相关ρ的其他流行相关度量密切相关。特别是,Kendall的秩相关(Huber and Ronchetti 2009)等于
,鞅差的平方相关等于
,距离的平方相关为
。
CD的样本版本能被方便的构造,令为随机样本,则
其中
从CD的定义可以看出,CD的值能表示两个变量的独立性,即可以对前面的假设进行检验。
8.2 正向筛选程序
在对CD进行定义后,接下来介绍基于CD的无模型正向变量筛选程序。为方便表示,引入下列符号,Y为响应变量,协变量,
为工作索引集,
为其补集。定义
,
,且假设
。
特征选择的目标是确定最小的索引集,使
其中表示独立。所以我们的目标是找出这样一个最小的索引集
。从该目标可以看出,该变量筛选考虑了协变量之间的条件关系,这是第一节中的SIS方法所没有考虑的。前面介绍的CSIS方法考虑了协变量之间的关系,但该方法中条件变量时根据先验信息或者其他方法预先确定的,在变量筛选中是固定的。这里基于累计散度的正向筛选是在正向筛选程序中,一个一个的加入协变量。
根据上面的目标,我们考虑如下假设检验问题,
由前面定义可知,当时,原假设成立。由于
,因此在
条件下,
,即
。在
条件下,在给定
时,
依赖于Y,即
。根据前面对CD的介绍,可以通过
来对假设进行检验。由于
中涉及了
,该论文假设
,其中
已知,
未知。即将
转变成了参数估计问题。
为了便于表示,假设协变量被边际标准化,即协变量具有零均值和单位方差。可以得到的估计为
其中
在的值充分大时拒绝原假设。
根据假设检验和特征筛选的目标,我们的目的是构造一个索引集,来使得原假设成立,即
。为此,该论文借助正向筛选方法来实现,具体步骤如下:
Step 1.给出初始索引集.
Step 2.对所有,计算
。定义
,
若,则更新
为
。数据驱动的
通过下列程序确定,
(a)生成,其中
,
是独立同分布的随机权重
。通过
计算得到
.
(b)重复上述boostrap程序B次,得到。令
是
的第
上分位数.
Step 3.重复步骤2直到没有变量被添加到索引集中.
从该变量筛选程序可知,在步骤1中,,此时相当于进行无条件假设检验,
值越大,表明拒绝原假设的把握越大,因此在
时选择最大的对应协变量加入到索引集中。在步骤2中,在第k步,已经选择了k-1个变量下标在索引集中,此时,在给定这k-1个变量下,考虑剩余变量与Y是否独立的问题, 同样在选择最大的
且满足
对应的k加入到索引集中。在步骤3中,当没有变量被添加到索引集时,表示前面的假设检验中原假设成立,即此时有
。该论文证明了该变量筛选方法具有确定筛选性质。