Unsupervised Personalized Feature Selection--阅读笔记

本文介绍了一种新的无监督个性化特征选择框架UPFS,旨在处理高维数据中的个性化模式。UPFS通过全局和局部特征权重发现实例间的共享和独特特征,适用于无标签数据。实验表明,UPFS在聚类任务中表现优越,尤其在文本和生物数据上,证实了其在捕获数据实例异质性和共享模式方面的有效性。
摘要由CSDN通过智能技术生成

论文链接
论文来源:AAAI
本文重新整理至知乎专栏

Abstract

背景:特征选择在处理高维数据的学习任务如:分类、聚类和异常检测等方面是有效的。

动机:绝大多数现有的特征选择方法都假设所有实例都共享一些共享特性子集中的共同模式。然而,在许多数据实例显示高度个性化的领域中,这种假设并不一定是正确的。例如,在医学领域,我们需要捕捉患者的异质性,以进行个性化的预测建模,这可以通过实例特定的特性的子集来描述。

方法:在此基础上,提出了一种新的个性化特征选择问题。特别是在无监督的情况下,我们在实践中很难获得标签信息。具体地说,我们提出了一种新的无监督的个性化特征选择框架UPFS,通过对每个实例进行定制的所有实例和实例特定的特性来寻找一些共享特性。我们将问题转化为一个有原则的优化框架,并提供了一个有效的算法来解决它。实际数据集的实验结果验证了所提出的UPFS框架的有效性。

Introduction

目前提出的大多数基于稀疏学习的特征选择方法,绝大部分为所有数据实例构建了一个单一的全局模型(即特征权重)。尽管在高预测准确性(分类或聚类)方面取得了成功,但这种全局模型不可避免地忽略每个数据实例的个性或个性。在很多情况下,实例可能是非常特殊的。例如,用户在社交媒体的发帖行为显着地不同。基于他们的个性和兴趣,他们经常使用的词语和句子是相当多样化的,具有不同的社交焦点。虽然重要的是个性化的特征,但是不同的事例或多或少具有一些共同性。例如,在医学预测建模中,尽管事实上患者的健康状况可能是不同的,但他们可能会有一定的特定疾病的共同症状。因此,通过在所有数据实例中找出一些共享特征来利用这些常见模式进行学习也至关重要。

受上述观察的启发,我们建议以无监督的方式为每个实例进行个性化的特征选择。具体而言,我们希望在查找共享特征的子集和某些特定于实例的特征时,定制自定义选择过程。图1显示了提出的无监督个性化特征选择的实例。
这里写图片描述

本文主要解决两个问题:

  • 如何对所有实例的共同模式进行模型化,并对每个特定数据实例的个性化模式进行特征选择。
  • 当标签信息不可用时如何找到共享特征和实例特征。

为了回答这两个研究问题,提出了一个无监督的个性化特征选择框架UPFS。这项工作的主要贡献总结如下:

  • 正式定义了无监督个性化特征选择的问题。
  • 我们提出一个原则性的方法,通过发现共同的特征来捕捉共同的和个性化的模式; 为每个实例定制的判别特征。
  • 我们提出了一个有效的交替算法来解决UPFS框架的优化问题。
  • 我们验证UPFS框架在不同类型的实际数据集上的有效性。

Unsupervised Personalized Feature Selection Framework - UPFS

相关定义:

  • X :为无标签数据集,其中每个实例 XiRd 在一个 d 的特征空间。
  • n 个不同的实例来自 c 个不同的类,这里假设每个实例只属于一个类。
  • F{0,1}nc :为one-hot 类矩阵,其中当 Xi 属于类 j 类时, Fi,j=1 ,否则 Fi,j=0

寻求能区分不同类实例的共享特征(shared features)的目标函数
这里写图片描述

这是一个稀疏正则化项的最小二乘分类模型,其中 WRdc 是一个全局特征权重, α 去控制全局特征权重 W 的稀疏度,在 W 中添加一个范式惩罚项是为了在不同类中实现联合特征的稀疏性。

以上的表述假设特征权重对于所有的实例是一致(consistent)的,但是在很多情况下,不同数据实例的特征重要性可能会有很大的不同。 因此,定制每个实例的特征选择以查找特定于实例的特征子集会更具吸引力。 为此,我们设置全局特征权重和局部特征权重来为每个实例执行伪标签预测,从而产生以下公式:
这里写图片描述
其中

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值