【论文阅读】2017-1-An ensemble approach to multi-view multi-instance learning

Windingd

已于 2022-05-25 20:48:40 修改

阅读量250

点赞数

分类专栏：论文阅读文章标签：机器学习

于 2022-05-22 21:23:26 首次发布

本文链接：https://blog.csdn.net/qq_43505356/article/details/124887003

版权

论文阅读专栏收录该内容

21 篇文章 1 订阅

订阅专栏

题目

An ensemble approach to multi-view multi-instance learning
一种多视图多实例学习的集成方法
2017-KBS

摘要

多视图学习结合了来自多个异构来源的数据，并利用它们的互补信息来构建更准确的模型。多示例学习将示例表示为包含实例集的标记包。由于基数和特征空间不同，不同多实例视图的数据融合不能简单地串联成一组特征。
本文提出了一种集成方法，该方法结合了视图学习器并在加权类预测之间寻求共识，以利用来自多个视图的互补信息。重要的是，集成必须处理来自每个视图的不同特征空间，而包的数据可能在视图中部分表示。
实验研究在一组 15 个多实例数据集上评估并比较了提议的性能与 20 种传统的、基于集成的和多视图算法。实验结果表明集成方法的性能优于单分类器，尤其是多视图多实例方法的最佳结果。结果通过多个非参数统计分析进行验证。

贡献：
1）提出集成学习将来自多视图多实例数据关系的信息与异构特征集融合，而不进行任何多实例问题转换。
2）为每个视图确定性能最佳的基分类器。在每个视图上使用不同的基分类器簇，选择对每个视图表现最好的模型
3）对基分类器进行加权。并非所有视图都为分类器提供有用的高质量信息

Multi-view multi-instance ensemble

符号系统

符号	表示
$\mathcal{X}^v$	视图 $v$ 的特征空间
$b=\{{b}^1,\dots,{b}^V\}$	具有多个特征向量视图的示例（examples ）
$C$	标签
${b}^v=\{\overline{x}_1^v,\overline{x}_2^v,\dots,\overline{x}_{k_v}^v\}$	视图 $v$ 包的表示
$\overline{x}^v=[x_1,x_2,\dots,x_{f_v}]$	视图 $v$ 特征空间上的实例
$k_v$	包中实例的数量
$V$	视图的数量

这样的表示很灵活：a)多个视图中可用信息量存在显着不平衡的数据，这也发生在现实世界的系统中，其中某些信息源提供的数据特征量比其他信息多得多。b)包不一定存在所有视图中，即视图不包含特定包标识符；包包含每个视图不同数量的实例

在这里插入图片描述

多视图多示例集成

在多视图分类中，基分类器用于从每个视图中学习
1） $f^v(\overline{x}^v)$ :对应于 $v$ 的多示例基分类器
2） $g(x)=fuse(f^1(\overline{x}^1),\dots,f^V(\overline{x}^V)))$ :由 $V$ 个多示例分类器组成的多视图多示例集成
3）预测：集成的预测来自于来自所有视图的基分类器的局部预测的融合，其中预测是使用聚合函数（例如majority或者weighted voting）组合

基分类器：
集成成功的关键是不同分类器的一致性
不知道哪种分类器更适合每一个视图，并且不知道每一个视图包含多少相关的信息
因此，首先评估一组来自不同families的候选多示例分类器，再确定对于每个视图完成最高accuracy的分类器，具体来说考虑三个高性能多示例分类器，包括：SimpleMI、MISMO、TLC。最终，选择获得该视图最佳局部accuracy的基学习器构成集成

Weighted voting：
通过每个基学习器的对该视图的局部accuracy来确定基分类器在集成中的权重

算法流程：

MVMI ensemble algorithm
$\text{TR}$ = train data, $\text{TS}$ =test data, $\text{CC}$ =candidate base classifiers
1.选择初始基分类器并构建集成
for 每个视图 $v$ in $V$
      for 每个候选分类器 $C_c$ in $\text{CC}$
            在视图 $v$ 的训练数据集 $\text{TR}^ v$ 上使用 $C_c$
             $C_c$ 在 $\text{TR}^v$ 上的accuracy为 $acc_c$
      end for
       $acc_k=max(acc), base_v \leftarrow C_k$
       $weight_v \leftarrow acc_k$
end for
2.对测试数据进行分类
for 每个包 in $\text{TS}$
      for 每个视图 $v$ in $V$
            if bag包含视图 $v$ 的数据 then
                   $\leftarrow classify(base_v,bag^v)$
                   $votes[baseClassPrediction]+=weight_v$
             end if
      end for
       $\leftarrow \text{argmax}(votes)$
end for

Experiments

实验设置

数据集：
实验在15 个多示例数据集上运行，从 Weka和 KEEL数据集存储库收集；
多视图数据集是根据 Yu 和 Liu 算法生成的，用于对高维数据进行特征选择，将传统的单视图数据集转换为多视图表示；其基于对称不确定性原则以保证不同视图之间的不确定性
在这里插入图片描述

比较算法
传统算法、基于集成、多视图学习器共20个

结果
指标
accuracy/ average accuracy
Kappa rate(当类严重不平衡时，准确性可能会产生误导):-1(完全不一致)~ 0（随机） ~1（完全一致）
precision，recall
precision–recall曲线图

准确率= $\frac{TP+TP}{TP+TN+FP+FN}$
精确率= $\frac{TP}{TP+FP}$
召回率= $\frac{TP}{TP+FN}$
F1分数同时考虑精确率和召回率，让两者同时达到最高
F1-measure= $\frac{2*精确率*召回率}{精确率+召回率}$

统计分析
Bonferroni–Dunn：用法发现多个比较算法之间的显著差异，如果算法对应的平均等级相差一个根据测试用例数量计算的临界差值，则存在显著差异
在这里插入图片描述
Wilcoxon rank-sum test：成对算法之间是否存在显著差异，p-value $<$ 0.01,则MVMI优于该算法参考参考
Holm test: p-value $<$ 0.0125

运行时间分析
每个数据集上的运行时间，平均运行时间，排名
MVMI的计算复杂度复杂度依赖于依赖于其基分类器在视图上的计算复杂度

缺少视图数据分析
在单视图中增加缺失值的数量，在多视图中包视图数据。随着缺失数据量的增加，性能会恶化。
由于视图的互补性，在MVMI中，由于加权方案有助于平衡基学习器缺失或低质量的预测，与其他方法相比MVMI保持了具有竞争力的准确性。
在这里插入图片描述

Windingd

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【论文阅读】2017-1-An ensemble approach to multi-view multi-instance learning

题目An ensemble approach to multi-view multi-instance learning一种多视图多实例学习的集成方法2017-KBS摘要多视图学习结合了来自多个异构来源的数据，并利用它们的互补信息来构建更准确的模型。多实例学习将示例表示为包含实例集的标记包。由于基数和特征空间不同，不同多实例视图的数据融合不能简单地串联成一组特征。本文提出了一种集成方法，该方法结合了视图学习器并在加权类预测之间寻求共识，以利用来自多个视图的互补信息。重要的是，集成必须处理来自每个
复制链接

扫一扫