摘要: 特征选择能去除不相关和冗余的特征,是解决多标记数据维度灾难的有效工具。现有的多标记特征选择算法没有考虑标记空间存在的相关性,认为每个样本的相关标记的重要性相同,并且忽略了特征空间可能是标记重要性差异形成的内在因素,使得选择的特征不能精确全面地刻画样本且计算过程复杂。为此,本文利用标记间的相关性对标记空间进行划分以简化计算,并定义标记重要性度量和特征权重,在此基础上提出了一种基于加权信息粒化的多标记特征选择算法。通过在真实多标记数据集上的实验对比分析,本文提出的算法在各项评价指标上均优于其他对比算法,验证了算法的有效性和可行性。
- 关键词:
- 邻域粗糙集 /
- 信息粒化 /
- 多标记学习 /
- 标记重要性 /
- 标记关系 /
- 特征权重 /
- 特征选择 /
- 谱聚类
在传统的分类学习中,每个实例只属于一个类别标记。但在现实世界中,一个样本可能涉及多个语义信息,这种情况符合多标记学习中单个样本多义性的特征。因此,多标记学习更贴近实际应用场景,可以更准确地描述和解决现实世界中的问题。例如,一幅图像往往同时包含“天空”“湖泊”“建筑”等多种重要的语义概念,一种蛋白质可能同时具有多个功能,一篇新闻报道可能同时与“体育”“社会”“娱乐”“财经”等多个话题相关。这类复杂数据很难用单一的语义标记进行描述,合理的处理方式是为每个样本赋予一个标记集合,进而建模和学习。在多标记学习框架下,样本由特征集和相关的标记集构成,学习的目标是将由特征集描述的样本映射到多个类别标记,现已被广泛应用在机器学习、