特征筛选和iv值
特征筛选
在实际的工程建模中,有时会引入大量的特征,以便可以从更多角度来刻画特征。但是当特征太多时,难免会引入一些无效特征。无效特征不仅会给模型带来噪音,并且还会增加模型的训练难度。因此在建模之前常常有必要进行一个初步的特征筛选,以便过滤掉那些无用特征。
iv值
iv值全称是information value。通过计算不同特征的iv值,可以来判断不同特征的重要程度。通常而言,某个特征的iv值越大,则该特征越重要。由于特征主要分为连续型特征和离散型特征,在特征入模之前,我们常常对连续型的特征进行归一化,对离散型的特征进行哑变量化(onehot)。我们需要分别对这两种不同类型的特征来计算iv值。
(1)iv值计算公式
对某个特征计算其iv值时首先需要对该特征进行分桶,设某特征被分为n个桶,每个分桶都能计算出一个iv值。设第i个桶对应的iv值为:
ivi=(pyi−pni)∗ln(pyipni) i v i = ( p y i − p n i ) ∗ l n ( p y i p n i )
,其中 pyi p y i 是第i个桶中正样本个数在所有正样本中的比列, pni p n i 则是第i个桶中负样本个数在所有负样本中的比列。其表达式为:
pyi=yiyall,pni=ninall p y i = y i y a l l , p n i = n i n a l l
,其中 yi y i 和 ni n i 分别是第i个桶中正负样本的个数, yall y a l l 和