3-1 特征选择&特征提取

本文详细探讨了特征选择与特征提取在机器学习中的重要性。特征选择旨在减少无关和冗余特征,避免维数灾难,提高模型效率和可解释性。特征提取通过PCA等方法降低数据复杂度,保持关键信息。PCA通过中心化、协方差矩阵计算,求得特征向量和值,实现数据降维,但可能存在丢失重要信息的风险。
摘要由CSDN通过智能技术生成

目录

  1. 特征选择
  2. 特征提取
  3. PCA

1 特征选择

1.1 卷积解决的问题

  • 卷积负责提取图像中的局部特征

1.2 特征

在一些实际问题中,我们得到的样本数据都是多个维度的,即一个样本是用多个特征来表征的。

比如在预测房价的问题中,影响房价y的因素有房子面积x1、卧室数量x2等,我们得到的样本数据就是(x1,x2)这样一些样本点,这里的x1、x2又被称为特征。

1.3 特征选择:为什么要做特征选择?

  • 维数灾难(Curse of Dimensionality):通常是指在涉及到向量的计算的问题中,随着维数的增加,计算量呈指数倍增长的一种现象。
  • 如果我们可以从中选择相关的特征,构建一个合理的模型,可以一定程度减小维数灾难

在现实生活中,一个对象往往具有很多属性(以下称为特征),这些特征大致可以被分成三种主要的类型:

  • 相关特征:对于学习任务(例如分类问题)有帮助,可以提升学习算法的效果;
  • 无关特征:对于我们的算法没有任何帮助,不会给算法的效果带来任何提升;
  • 冗余特征:不会对我们的算法带来新的信息,或者这种特征的信息可以由其他的特征推断出。

特征选择:把相关特征留下,把无关特征和冗余特征去除

但是对于一个特定的学习算法来说,哪一个特征是有效的是未知的。因此,需要从所有特征中选择出对于学习算法有益的相关特征。

  • 进行特征选择的主要目的
    • 降维
    • 降低学习任务的难度
    • 提升模型的效率

其他:

  • 减少模型的运行时间
  • 增加模型的可解释性
  • 降低学习任务的难度:特征少了,难度就降低了

[例] 区分猫狗
相关特征:五官
无关特征:颜色
冗余特征:特征A可以推出特征B

【面试题】
提到某个特征选择的算法,问该算法的主要目的是什么?

  1. 你要知道他提到的算法是在做特征选择的
  2. 主要目的即是3点

1.4 特征选择:什么是特征选择?

  • 定义:从N个特征中选择其中M(M<=N)个子特征,并且在M个子特征中,准则函数 可以达到最优解。
  • 特征选择想要做的是
    • 选择尽可能少的子特征,模型的效果不会显著下降;
    • 并且结果的类别分布尽可能的接近真实的类别分布

1.5 特征选择:怎么做特征选择?

特征选择主要包括四个过程:

  • 生成过程:生成候选的特征子集;
  • 评价函数:评价特征子集的好坏;
  • 停止条件:决定什么时候该停止;
  • 验证过程:特征子集是否有效;
    在这里插入图片描述

1.5.1 生成过程

从全集中搜索出子集

生成过程是一个搜索过程,这个过程主要有以下三个策略:

  • 完全搜索:根据评价函数做完全搜索。完全搜索主要有两种:穷举搜索和非穷举搜索;
  • 启发式搜索:根据一些启发式规则在每次迭代时,决定剩下的特征是应该被选择还是被拒绝。这种方法很简单并且速度很快。
  • 随机搜索:每次迭代时会设置一些参数,参数的选择会影响特征选择的效果。由于会设置一些参数(例如最大迭代次数)。

1.5.2 停止条件

停止条件用来决定迭代过程什么时候停止,生成过程和评价函数可能会对于怎么选择停止条件产生影响。停止条件有以下四种选择:

  • 达到预定义的最大迭代次数;
  • 达到预定义的最大特征数;(比如我只找50个特征即停止,不管还有没有其他的需要的特征存在)
  • 增加(删除)任何特征不会产生更好的特征子集;(最优的特征子集)——根据增加(删除)
  • 根据评价函数,产生最优特征子集; ——根据评价函数

1.5.3 评价函数

评价函数主要用来评价选出的特征子集的好坏,一个特征子集是最优的往往指相对于特定的评价函数来说的。
评价函数主要用来 度量一个特征(或者特征子集)可以区分不同类别的能力。根据具体的评价方法主要有三类:

  • 过滤式(filter): 先进行特征选择,然后去训练学习器,所以特征选择的过程与学习器无关。相当于先对于特征进行过滤操作,然后用特征子集来训练分类器。对每一维的特征“打分”,即给每一维的特征赋予权重,这样的权重就代表着该维特征的重要性,然后依据权重排序。
      <
  • 3
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值