DC学院学习笔记预测型数据分析：用特征选择方法优化模型

最新推荐文章于 2024-05-24 22:21:58 发布

my_angle2016

最新推荐文章于 2024-05-24 22:21:58 发布

阅读量591

点赞数

本文链接：https://blog.csdn.net/my_angle2016/article/details/84579142

版权

特征选择的定义：

特征选择（Feature Selection）也称特征子集选择（Feature Subset Selection , FSS），或属性选择（Attribute Selection）。是指从已有的M个特征（Feature）中选择N个特征使得系统的特定指标最优化，是从原始特征中选择出一些最有效特征以降低数据集维度的过程，是提高学习算法性能的一个重要手段，也是模型识别中关键的数据预处理步骤。对于一个学习算法来说，好的学习样本是训练模型的关键。

特征选择的方法：

数据驱动：分析手上已有的训练数据，得出哪些x里面的特征对预测y最重要。主要的三大类方法如下：

相关性：考察在我们已有的数据里面的特征x与预测值y的相关度
迭代删除（增加）：确定要使用哪个算法后，选择最合适的训练子集，从而使得模型的效果最好
基于模型：通过随机森林等可以直接得出每个训练特征的重要性的模型；或者是在进行预测时加入的一些正则化调整，引起的对特征的筛选，从而挑选出最重要的特征

领域专家：通过相关领域专家知识，经验来挑选特征

相关性系数：皮尔逊系数

定义：

在统计学中，皮尔逊积矩相关系数（英语：Pearson product-moment correlation coefficient，又称作 PPMCC或PCCs, 文章中常用r或Pearson’s r表示）用于度量两个变量X和Y之间的相关（线性相关），其值介于-1与1之间。在自然科学领域中，该系数广泛用于度量两个变量之间的相关程度。它是由卡尔·皮尔逊从弗朗西斯·高尔顿在19世纪80年代提出的一个相似却又稍有不同的想法演变而来的。这个相关系数也称作“皮尔森相关系数r”。

公式：

Python实现：

from scipy.stats.stats import pearsonr

pearsonr(x,y)

迭代特征选择

解决的问题：假设我们已经确定了要使用哪个算法后，我们怎么知道哪个X的子集合作为特征训练模型效果最好。

解决方案：

暴力解法：把所有可能的特征组合都试一遍，用交叉检验来看哪个特征子集预测效果最好
递增：
初始化：X’ = 空集，X”=X
For in X”:
X’ + 作为特征集合训练
选所有中训练得到模型最好的x’
X’ = X’ + x’
X” = X” - x’
蓝色部分迭代直到新加入任何特征模型性能都无提升
递减：
初始化：X’ = X
For in X’:
X’ - 作为特征集合训练
选所有中训练得到模型最好的x’
X’ = X’ - x’
蓝色部分迭代直到去除任何特征模型性能都会下降