摘要
特征选择作为一种数据预处理策略已经被证明在为各种数据挖掘和机器学习问题准备数据(特别是高维数据)方面是有效和高效的。
特征选择的目标包括:构建更简单,更易于理解的模型,提高数据挖掘性能,准备清晰,可理解的数据。大数据近期的激增为特色选择带来了一些重大的挑战和机遇。
在这次调查中,提供了关于特征选择研究最新进展的综合和结构化概述。受当前大数据时代的挑战和机遇的驱动,我们从数据角度重新审视了特征选择研究,并回顾了传统数据,结构化数据,异构数据和流数据的代表性特征选择算法。
从方法论角度来看,为了强调传统数据中大多数现有特征选择算法的差异性和相似性,我们将其分为四大类:基于相似性,基于信息论,基于稀疏学习和基于统计的方法。
为了促进这个社区的研究,作者还提供了一个开放源代码的特征选择库,其中包含了最受欢迎的选择算法(http://featureselection.asu.edu/)。此外,我们还使用了一个样例选择算法来评估特征选择算法。在调查结束之前,我们将讨论一些未来研究中需要更多关注的未解决的问题和挑战。
INTRODUCTION
我们现在处于大数据时代,大量高维数据变得越来越多,比如社交媒体,医疗保健,生物信息学和在线教育等。数据挖掘的快速发展给有效和有效的数据管理带来了挑战。 应用数据挖掘和机器学习技术来自动从各种数据中发现知识是可取的。
当数据挖掘和机器学习算法应用于高维数据时,一个关键问题就是维数灾难。它指的是数据在高维空间中变得更稀疏的现象,对低维空间设计的算法产生了负面影响。此外,由于数量庞大,学习模型会导致性能下降,导致数据分析的内存需求和计算成本大大增加。
降低维度是解决上述问题的最有力的工具之一。它主要可以分为两个主要部分:
- 特征提取:将原始的高维特征投影到低维的新特征空间。新构建的特征空间通常是原始特征的线性或非线性组合。
- 特征选择:直接选择相关特征子集进行模型构建。
特征提取和特征选择都具有提高学习性能,提高计算效率,减少内存容量,建立更好的通用化模型的优点。因此,它们都是有效的降维技术。
一方面,对于原始输入数据不包含给定学习算法可理解的任何特征的许多应用,特征提取是优选的。另一方面,随着特征提取创建一组新特征,进一步的分析是有问题的,因为我们不能保留这些特征的物理意义。相反,通过保留一些原始特征,特征选择保持了原始特征的物理意义,并且给模型提供了更好的可读性和可解释性。因此,在文本挖掘和遗传分析等应用中,特征选择往往是首选。应该指出的是,在某些情况下,即使特征维数通常不是很高,但特征提取/选择仍然起着重要的作用,如提高学习性能,防止过度填充以及降低计算成本。
真实世界的数据包含许多不相关、冗余和嘈杂的特征。 通过特征选择去除这些特征可以减少存储和计算成本,同时避免信息的显着损失或学习性能的下降。
例如,在图1(a)中,特征f1是能够区分两个类别(集群)的相关特征。 然而,给定特征f1,图1(b)中的特征f2是冗余的,因为f2与f1强相关。 在图1(c)中,特征f3是一个不相关的特征,因为它根本不能分开两个类(集群)。 因此,去掉f2和f3不会对学习成绩产生负面影响。