目录
3、为什么随机森林运行如此之快?为什么方差过滤对随机森林没很大的有影响?
引言
特征工程概念:
特征工程将原始数据转换为更能代表预测模型的潜在问题的特征的过程,可以挑选最相关的特征,提取特征以及创造特征来实现。其中创造特征又经常以降维算法来实现。
特征工程的目的:
降低计算成本,提升模型上限
特征工程方法
特征提取、特征创造、特征选择
特征工程的第一步:理解业务
四种选择特征的方法:过滤法、嵌入法、包装法和降维算法
一、Filter过滤法
过滤方法通常用作预处理步骤,特征选择完全独立于任何机器学习算法。它是根据各种统计检验中的分数以及相关性的各项指标来选择特征。
1 方差过滤
方差过滤函数VarianceThreshold
这是通过特征本身的方差来筛选特征的类。比如一个特征本身的方差很小,就表示样本在这个特征上基本没有差异,可能特征中的大多数值都一样,甚至整个特征的取值都相同,那这个特征对于样本区分没有什么作用。
无论接下来的特征工程要做什么,都要优先消除方差为0的特征。
VarianceThreshold有重要参数threshold,表示方差的阈值,表示舍弃所有方差小于threshold的特征,不填默认为0,即删除所有的记录都相同的特征。
#查看方差
x.var()
过滤方差为零的特征
from sklearn.feature_selection import VarianceThreshold
selector=VarianceThreshold()
X_var0=selector.fit_transform(X)
X_var0.shape
#输出
>(42000, 708)
可以看见,我们已经删除了方差为0的特征,但是依然剩下了708多个特征,明显还需要进一步的特征选择。然而,如果我们知道我们需要多少个特征,方差也可以帮助我们将特征选择一步到位。比如说,我们希望留下一半的特征,那可以设定一个让特征总数减半的方差阈值,只要找到特征方差的中位数,再将这个中位数作为参数threshold的值输入就好了:
过滤方差为中位数的特征
from sklearn.feature_selection import VarianceThreshold
import numpy as np
X_fsvar=VarianceThreshold(np.median(X.var().value)).fit_transform(X)
x_fsvar
#输出
>(42000, 392)
当特征是二分类时,特征的取值就是伯努利随机变量,这些变量的方差可以计算为:
其中X是特征矩阵,p是二分类特征中的一类在这个特征中所占的概率。
#若特征是伯努利随机变量,假设p=0.8,即二分类特征中某种分类占到80%以上的时候删除特征
x_bvar = VarianceThreshold(.8*(1-.8)).fit_transform(x)
x_bvar.shape
>(42000, 685)
2、方差过滤对模型的影响
通过KNN和随机森林分别在方差过滤前和方差过滤后运行的效果和运行时间的对比,来观察方差过滤对模型的影响
KNN是K近邻算法中的分类算法,其原理非常简单,是利用每个样本到其他样本点的距离来判断每个样本点的相似度,然后对样本进行分类。KNN必须遍历每个特征和每个样本,因而特征越多,KNN的计算也就会越缓慢。
导入模块并准备数据
#KNN vs 随机森林在不同方差过滤效果下的对比
from sklearn.ensemble import RandomForestClassifier as RFC #随机森林分类模型
from sklearn.neighbors import KNeighborsClassifier as KNN #KNN
from sklearn.model_selection import cross_val_score #交叉验证
import numpy as np
#同最开始的数据准备的目的一样
X = data.iloc[:,1:]
y = data.iloc[:,0]
#只留下一半的特征,找到特征方差的中位数,再将这个中位数作为参数threshold的值输入就可以达到目的
X_fsvar = VarianceThreshold(np.median(X.var().values)).fit_transform(X)
KNN方差过滤前
#======【TIME WARNING:35mins +】======#
cross_val_score(KNN(),X,y,cv=5).mean()
#python中的魔法命令,可以直接使用%%timeit来计算运行这个cell中的代码所需的时间
#为了计算所需的时间,需要将这个cell中的代码运行很多次(通常是7次)后求平均值,
#因此运行%%timeit的时间会远远超过cell中的代码单独运行的时间
#======【TIME WARNING:4 hours】======#
%%timeit
cross_val_score(KNN(),X,y,cv=5).mean()
#输出
KNN方差过滤后
#======【TIME WARNING:20 mins+】======#
cross_val_score(KNN(),X_fsvar,y,cv=5).mean()
#======【TIME WARNING:2 hours】======#
%%timeit
cross_val_score(KNN(),X_fsvar,y,cv=5).mean()
#输出
可以看出,对于KNN,过滤后的效果十分明显:准确率稍有提升,但平均运行时间减少了10分钟,特征选择过后算法的效率上升了1/3。
随机森林方差过滤前
cross_val_score(RFC(n_estimators=10,random_state=0),X,y,cv=5).mean()
#输出
随机森林方差过滤后
cross_val_score(RFC(n_estimators=10,random_state=0),X_fsvar,y,cv=5).mean()
#输出
首先可以观察到的是,随机森林的准确率略逊于KNN,但运行时间却连KNN的1%都不到,只需要十几秒钟。其次,方差过滤后,随机森林的准确率也微弱上升,但运行时间却几乎是没什么变化,依然是11秒钟。
3、为什么随机森林运行如此之快?为什么方差过滤对随机森林没很大的有影响?
>最近邻算法KNN,单棵决策树,支持向量机SVM,神经网络,回归算法,都需要遍历特征或升维来进行运算,所以他们本身的运算量就很大,需要的时间就很长,因此方差过滤这样的特征选择对他们来说就尤为重要。
>对于不需要遍历特征的算法,比如随机森林,它随机选取特征进行分枝,本身运算就非常快速,因此特征选择对它来说效果平平。
无论过滤法如何降低特征的数量,随机森林也只会选取固定数量的特征来建模;而最近邻算法就不同了,特征越少,距离计算的维度就越少,模型明显会随着特征的减少变得轻量。
- 过滤法的主要对象是:需要遍历特征或升维的算法们
- 过滤法的主要目的是:在维持算法表现的前提下,帮助算法们降低计算成本。
过滤法对随机森林无效,却对树模型有效?
从算法原理上来说,传统决策树需要遍历所有特征,计算不纯度后进行分枝,而随机森林却是随机选择特征进行计算和分枝,因此随机森林的运算更快,过滤法对随机森林无用,对决策树却有用
在sklearn中,决策树和随机森林都是随机选择特征进行分枝,但决策树在建模过程中随机抽取的特征数目却远远超过随机森林当中每棵树随机抽取的特征数目(比如说对于这个780维的数据,随机森林每棵树只会抽取10-20个特征,而决策树可能会抽取300~400个特征),因此,过滤法对随机森林无用,却对决策树有用
也因此,在sklearn中,随机森林中的每棵树都比单独的一棵决策树简单得多,高维数据下的随机森林的计算比决策树快很多。
对受影响的算法来说,可以将方差过滤的影响总结如下:
- 如果在使用方差过滤掉特征之后,模型精准度上升了,这说明被过滤掉的特征在当前的随机模式(random_state = 0)下大部分是噪音。
- 如果过滤之后模型的效果反而变差了,被过滤掉的特征中有很多都有有效特征,那我们就放弃过滤,使用其他手段来进行特征选择
对于随机森林还可以进行调整n_estimators参数来提高模型的准确率,随机森林是一个非常强大的模型
4、选取超参数threshold
我们怎样知道,方差过滤掉的到底时噪音还是有效特征呢?过滤后模型到底会变好还是会变坏呢?
每个数据集不一样,只能自己去尝试。
可以画学习曲线,找模型效果最好的点。但现实中,我们往往不会这样去做,因为这样会耗费大量的时间。
通常只会使用阈值为0或者阈值很小的方差过滤,来为我们优先消除一些明显用不到的特征,然后我们会选择更优的特征选择方法继续削减特征数量.