特征选择（笔记）

最新推荐文章于 2024-07-12 15:42:37 发布

�路颜可��

最新推荐文章于 2024-07-12 15:42:37 发布

阅读量261

点赞数

文章标签：机器学习数据挖掘笔记

本文链接：https://blog.csdn.net/qq_55905518/article/details/129851353

版权

特征选择是指从原始数据中选择最具有代表性和区别性的特征，以提高模型的性能和准确性。

在机器学习和数据挖掘中，特征选择是一个重要的预处理步骤，可以减少数据维度、降低模型复杂度、提高模型的泛化能力和可解释性。

特征选择的方法可以分为三类：过滤式、包裹式、嵌入式。

1、过滤式特征选择

过滤式特征选择是在特征选择和模型训练之前进行的，它通过计算每个特征与目标变量之间的相关性或重要性来选择特征。常用的方法包括相关系数、卡方检验、互信息、方法分析等。

相关系数：适用于连续变量之间的线性关系，相关系数是用来衡量两个变量之间线性关系强度的统计量。常用的相关系数：皮尔逊相关系数（适用于连续变量），斯皮尔曼相关系数（适用于有序变量或非线性关系）。

卡方检验：适用于分类变量之间的相关性。卡方检验是用来检验两个分类变量之间是否存在关联性的统计方法。原理：比较实际观测值和期望值之间的差异，如果差异显著，则认为两个变量之间存在关联性（P<0.05）。分类变量：是指数据集中有限数目的离散分类组成的变量。他们通常代表标签、种类、类型等离散概念，这些概念不能进行数值计算。For example，在人口调查中，性别（男/女）、宗教信仰（基督教、伊斯兰教、佛教、无宗教信仰等）和婚姻状况（已婚/未婚）都是分类变量。

互信息：适用于非线性关系。互信息用来衡量两个变量之间非线性关系强度的统计量。原理：比较两个变量的联合分布和各自分布之间的差异，如果差异显著，则认为它们之间存在非线性关系。互信息的值越大，表示X和Y之间的关系越密切。

方差分析：用来比较多个组之间差异是否显著的统计方法。原理：比较组内方差和组间方差之间的差异，如果差异显著，则认为组之间存在差异。

2、包裹式特征选择

包裹式特征选择是在模型训练过程中进行的，它将特征选择看作是一个搜索问题，通过不断的选择和排除特征来优化模型的性能。常用的方法：递归特征消除、遗传算法、模拟退火等。

遗传算法的基本思想：将问题的解表示为染色体的形式，通过模拟自然选择、交叉和变异等过程，不断优化染色体的适应度，最终得到最优解。

模拟退火基本思想：在搜索过程中允许一定概率接受劣解，以避免陷入局部最优解。核心：温度控制和接受概率的计算。温度控制决定了算法在搜索过程中接受劣解的概率，随着搜索的进行，温度逐渐降低，接受劣解的概率也逐渐降低。接受概率的计算是根据当前温度和系统的能量差来计算的，能量差越大，接受概率越高。

3、嵌入式特征选择

嵌入式特征选择是将特征选择嵌入到模型训练中，通过在模型训练的过程中对特征进行选择和调整来优化模型的性能。常用的方法：L1正则化、决策树、神经网络等。

神经网络：神经往事一种模拟人类神经系统的计算模型，有大量的人工神经元相互连接而成。可以通过学习和训练来实现各种复杂的任务。神经网络由输入层（接受外部输入）、隐藏层（负责处理中间信息）、输出层（输出结果）组成。神经网络的训练过程通常采用反向传播算法，通过不断调整神经元之间的权重，使得网络的输出结果与预期结果尽可能接近。

�路颜可��

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
特征选择（笔记）

温度控制决定了算法在搜索过程中接受劣解的概率，随着搜索的进行，温度逐渐降低，接受劣解的概率也逐渐降低。接受概率的计算是根据当前温度和系统的能量差来计算的，能量差越大，接受概率越高。原理：比较两个变量的联合分布和各自分布之间的差异，如果差异显著，则认为它们之间存在非线性关系。包裹式特征选择是在模型训练过程中进行的，它将特征选择看作是一个搜索问题，通过不断的选择和排除特征来优化模型的性能。：将问题的解表示为染色体的形式，通过模拟自然选择、交叉和变异等过程，不断优化染色体的适应度，最终得到最优解。
复制链接

扫一扫