todo:暂时是看到一些常用场景对应的一些方法,比较乱,之后统一整理下
这篇知乎有关于特征选择的大纲。
特征挑选方法
特征选择的优点:
-
提高效率,特征越少,模型越简单
-
正则化,防止特征过多出现过拟合
-
去除无关特征,保留相关性大的特征,解释性强
特征选择的缺点:
-
筛选特征的计算量较大
-
不同特征组合,也容易发生过拟合
-
容易选到无关特征,解释性差
线性模型
1、可以通过计算出每个特征的重要性(即权重),然后再根据重要性的排序进行选择。|wi|越大,表示对应特征xi越重要,则该特征应该被选择。w的值可以通过对已有的数据集(xi,yi)建立线性模型而得到。
非线性
1、比如随机森林,使用random test选取特征。random test的做法是对于某个特征,如果用另外一个随机值替代它之后的表现比之前更差,则表明该特征比较重要。随机值选择通常有两种方法:一是使用uniform或者gaussian抽取随机值替换原特征,另一种方法通过permutation的方式将原来的所有N个样本的第i个特征值重新打乱分布(相当于重新洗牌)。比较而言,