Feature Selection: A Data Perspective --阅读笔记2 传统数据的特征选择算法

这篇博客介绍了传统数据的特征选择算法,重点关注基于相似性的方法,如Laplacian Score和SPEC。Laplacian Score是无监督的特征选择算法,用于保留数据流形结构,而SPEC则扩展到有监督和无监督场景,通过不同标准衡量特征相关性。
摘要由CSDN通过智能技术生成

论文的前一部分

FEATURE SELECTION ON CONVENTIONAL DATA

在本节中,我们根据所使用的技术对传统数据的传统特征选择算法进行了广泛的分类:

  • 基于相似性(Similarity based Methods)
  • 基于信息理论();
  • 基于稀疏学习;
  • 基于统计;
  • 其他方法

Similarity based Methods

不同的特征选择算法利用各种类型的标准来定义特征的相关性。
基于相似性的方法:通过保存数据相似性的能力来评估特征的重要性。

  • 对于有监督的特征选择,可以从标签信息导出数据相似性;
  • 而对于无监督的特征选择方法,大多数方法利用不同的距离度量来获得数据相似性。

给定一个具有 n 个实例和 d 个特征的数据集 XRn×d ,可以在一个相似度/亲和度(affinity)矩阵 SRn×n 中编码具有相似性的对。假设我们希望选择 k 个最相关的特征 S ,一种方法是最大化它们的效用: maxSU(S) ,其中 U(S) 表示特征子集S的效用。由于该系列中的算法经常单独评估特征,特征子集 S 上的效用最大化可以进一步分解为以下形式:
这里写图片描述

其中 U(f) 是特征 f 的效用(utility)函数。 f^ 表示原始特征向量 f

  • 0
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值