Kolmogorov Filter数据降维模型
Kolmogorov Filter方法[1](下面称K-f法)是基于Kolmogorov-Smirnov检验而提出。K-f法重点关注了两种条件下的分布函数存在较大差距的预测变量,这些变量的值对Y值的选取有较大的决定作用,故作为重要变量。
K-f方法是对二值响应变量的预测变量的筛选方法,且其预测变量的类型不做限制。具体步骤如下:
首先定义与分别是给定或条件下的分布函数(条件积累概率函数)
其次定义Kolmogorov系数为两分布函数差的上界的估计值分别是和的矩估计。
最后对所有预测变量的统计量进行降序排列,筛选较大的m个预测变量作为重要变量。