特征选择(一)

本文介绍了数据降维技术中的特征选择,包括基于标签信息的监督、无监督和半监督方法,以及搜索策略中的过滤式、包裹式和嵌入式策略。特征选择有助于减少冗余和不相关特征,提高效率和模型解释性。
摘要由CSDN通过智能技术生成

随着科学技术的快速发展,获取数据 / 收集数据越来越方便,数据库不断增加,因此数据量 / 数据维度也会相应的增加。对于一个像素为640 x 480的图像来说,维度为307200。维度的增加相应的时间复杂度和空间复杂度也会增加。其中包括冗余和不相关的特征,因此数据降维技术起到关键性的作用。
数据降维技术主要分为两类:特征选择和子空间学习(特征提取)。特征选择技术的目的主要是:根据不同的标准,从高维数据集中选择一些相关特征来表示原始数据集(没有改变原始特征空间,具有可解释性)。特征提取技术的目的主要是:将高维数据集通过某种关系映射到低维特征子集(改变原始特征空间)。下图为特征选择算法的分类框图:

在这里插入图片描述

1.标签信息

根据数据的标签信息,特征选择算法可以分为:监督 无监督 半监督。

  1. 监督特征选择,利用数据标签信息区别不同类别的样本,但是可能存在不可靠和错误的标记,对特征选择的结果造成影响。
  2. 无监督特征选择,数据没有标签信息,对于每个数据都是公平的,在对未知疾病分类提供了选择,但同时也会忽略不同特征之间的相关性。
  3. 半监督特征选择,在部分数据被标记的情况下,可以利用半监督特征选择。通常使用标记数据来最大化不同类数据点之间的裕度,而未标记数据则用于发现空间的几何结构。

2.搜索策略

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值