【总结】Deep Multi-label Classification in Affine Subspaces

PPT 

 

 

 

 

论文题目:在仿射子空间中的多标签分类

1.什么是MLC?MLC 多标签分类。多标签分类需要与多分类进行区别,多分类有且只有一个标签,而多标签分类可以有多个标签(且不定)

2.当前的MLC的常用方法一共有3种。 

第一种,是将MLC转换成二分类问题。在传统机器学习模型中可以使用分类器链,在这种情况下,第一个分类器只在输入数据上进行训练,然后每个分类器都在输入空间和链上的所有之前的分类器上进行训练。在下面给出的数据集里,我们将X作为输入空间,而Y作为标签。黄色部分是输入空间,白色部分代表目标变量。在分类器链中,这个问题将被转换成4个不同的标签问题,每个问题只需要预测白色的二分类的问题。考虑多标签的相关性时候可以将上一个输出的标签当成是下一个标签分类器的输入。

另一种是当成多类问题,把标签统一来看(Label Powerset) 在这一点上,我们发现x1和x4有相同的标签。同样的,x3和x6有相同的标签。因此,标签powerset将这个问题转换为一个单一的多类问题,如下所示。

因此,标签powerset给训练集中的每一个可能的标签组合提供了一个独特的类。转化为单标签后就可以使用SVM等分类算法训练模型了。

但是,Label Powerset只适合标签数少的数据,一旦标签数目太多(假设有n个),使用Label Powerset后可能的数据集将分布在[0,2^n]空间内,数据会很稀疏。

另外的多标签分类模型有:kNN多标签版本MLkNN,SVM的多标签版本Rank-SVM等。

3.但是当前MLC的发展会遇到很多瓶颈。首先是数据集的问题。大型数据集生成注释通常既耗时又昂贵,输出结果的数量又非常大,同时每个样例的标签的数量不多。针对这些特点,作者设计了一种新的损失函数的思想和方法。该函数一方面强制具有相同标签值的样本靠近同一子空间,另一方面又使不同的子空间彼此分开。 因此,当通过使用我们的方法训练神经网络(NN),可以将样本拉向学习的子空间,并且可以通过密度估计方法轻松地对其进行分类。

4.在传统的MLC中,每个输入图像具有个不同的二元标签,其中。目标是找到一个深层网络使得是输入图像x的标签为1的估计概率。为方便起见,我们将深度网络表示为以下两个函数的组合:特征提取函数为给定图像构建维描述符向量,而多输出二进制分类器。通常,是标准多输出逻辑回归,,【其中定义从特征空间到特征空间的仿射变换映射。 是提供元素的逻辑函数最终概率】。在这种情况下,逻辑回归使用个不同的维超平面分割特征空间,每个超平面用于一个标签,并根据其标签将每个样本推向每个超平面的一侧

在这幅图中,标签数量是2,即有两个比特位。描述符向量的维度是2,那么对于一个平面它的超平面就是一条一维的线。对于W0z+b0,线的左边第0位都是0,线的右边第0位都是1.对于w1z+b1,线的左边第1位都是0,线的右边第1位都是1。

就是说,它在特征空间中定义了个的区域(假设),每个可能的标签组合都分配到一个区域,并将样本移至它们相应的区域。作者认为,这个过程并不完全适合于MLC,有两种基本的原因:(1)超平面分割的区域高度不规则,有些无界的,有些又很小。这导致标签的某些组合比特征空间中其他组合更容易表示。 (2)对于相同标签的样本,逻辑回归不能促进特征向量相似。相反,它仅强制样本落在超平面的正确一侧。

5.我们引入了新的仿射子空间多标签分类器(AS-MLC)。 我们的方法不是将点推向不同的区域,而是将点拉向不同的仿射子空间。 这个简单的想法解决了上述两个问题。

对于每个标签,我们定义两个平行的维仿射子空间,由个超平面的交点确定,其中是共享超平面的法向量,是两个子空间的偏置项。 对于给定的标签的点将被拉向的点将被拉向

在这幅图中,有两对平行的线。以绿色的01为例,他是w_0z+b_{0,0} 和 w_1z+b_{1,1}的交点。在w_0z+b_{0,0}上,说明它的第0位的标签是0,在w_1z+b_{1,1}说明它的第一位的标签是1。同理,对于玫红色的10,在w_0+b_{0,1}上说明第0位是1,在w_1z+b_{1,0}上说明第1位是0。

6.为了训练我们的方法,我们首先使用以下损失函数项,来最小化样本到其相应子空间的距离,其中是类别标签的特定权重。 同时,我们还希望与同一标签相对应的子空间彼此尽可能远离。 这可以用额外的形式化成损失项,该损失项可以最大化平行子空间之间的距离。 最后,为了避免减小权重的大小使得损失项最小,我们添加了一个正则化项来强制法线具有单位大小,其中| ·| 是逐元素的绝对值,I是单位矩阵,tr是矩阵的迹。 给定图像的训练数据集及其相应的标签,训练过程将这三项的加权和最小化。

在测试时, 因此,对于每个标签i和类别j,我们使用预计的训练数据建立可能性的核密度估计(可以参考(转载)核密度估计),其中是带宽为的高斯核,是训练数据的第个元素的描述符向量,而是该训练数据的描述符向量 输入图像。 注意,不需要偏置项来定义密度,因为它们被隐式地编码在描述符向量的集合中。
它是多标签二进制分类器的第个输出。

另外,作者还 使用到每个子空间的距离之比作为每个标签的概率(我们将此方法表示为AS-MLC-Distance),但是并没有给出式子,仅在实验中给出了具体结果。

7.该数据集包括对视网膜的体积光学相干断层扫描(OCT)扫描,并带有11个病理学生物标记标签。数据分别分为用于训练和测试集的23'030和1'029图像,两次均无患者图像。图像标签包括:健康,视网膜下液,视网膜内液,视网膜内囊肿,高反射灶,玻璃疣,网状假性粉刺,上睑膜,地理萎缩,视网膜外萎缩和纤维血管性PED。图1(左)显示了一个存在两个生物标志物的训练示例。为了将我们的方法与现有方法进行比较,我们使用两种不同的NN体系结构评估了多个基准:预先训练的DRND-54 [10]和ResNet-50 [11]。使用Adam优化器[12]以10-3的基本学习率训练所有方法。我们对所有实验都采用相同的数据增强方案(翻转,旋转,平移,伽玛和亮度)。通过5倍交叉验证报告结果,其中训练数据分为训练80%和验证20%。使用的基准包括:

Softmax:每个标签的两类输出,使用softmax运算符进行归一化,并优化了二进制交叉熵损失。
Ranking我们使用Li等人描述的排名损失。 [7]。 由于排名损失通常是有阈值的,因此在训练和测试过程中我们会忽略此阈值并将输出范围定为0到1之间。我们承认这对排名方法是不利的,但为了比较而将其包括在内。
ML-KNN:我们应用距离权重的kNN(N =50)到z从提取[6]中的Softmax方法。
AS-MLC我们设定β=5,α=1和e=32的高斯核密度,估计带宽设置为δ= 0.1,并使用训练图像及其水平翻转版本的特征。 我们还与距离函数方法AS-MLC-Distance进行了比较。

8.表1给出了平均平均精度(mAP)结果,表明我们提出的方法优于所有指标和两个网络常用的损失函数。 当使用和不使用测试时间数据增强(原始图像+左/右翻转)时,我们展示了微观和宏观平均结果。 使用我们的方法,与softmax交叉熵损失相比,我们看到的性能提高了5.7%。 在图3(左)中,我们展示了使用10倍交叉验证时的带宽δ值。 在这里,我们看到除非带宽值选择得太小,否则对于宽范围的值,性能都将保持稳定。 同样,我们还分析了特征空间e的大小的影响,我们认为这是附加的超参数。 从图3(右)可以得出结论,极小的特征空间大小不足以用于我们的方法,但是对于大于5的值,性能始终很高

 

9.数据集包含与14种不同标签相关的112'120 X射线扫描结果[2]。 数据根据原始的患者级别数据拆分进行拆分,这导致70%的训练,10%的确认和20%的测试集。 我们将图像调整为512×512像素,并使用Adam优化器优化网络[12]。 在这种情况下,我们会比较加权的交叉熵损失,并将加权项α添加到类别标签中,因为数据中存在明显的类别不平衡(即权重等于逆类出现)。 对于所有实验,我们都使用DRND-54 [10] CNN作为基础架构。 我们固定超参数β= 5,并使用交叉验证(δ= 1.0)找到最佳带宽。

表2给出了我们的AS-MLC方法的结果,得出的结果为0.8008平均AUC。 因此,在平均ROC值方面,我们的方法优于softmax交叉熵损失近3%。 使用标准网络的这些结果在以前发布的最新结果的范围内,该结果使用了大量的其他训练数据[13](0.806),基于attention的模型[14,15](0.8027和0.816)以及显著 胜过原著[2]。

 

私以为,这篇文章理论性也太强了。感觉不像是应该在MICAII上发表的文章233333.

 

https://blog.csdn.net/weixin_41513917/article/details/102796112 自己总结的子空间(subspace) 超平面(hyperplane) 仿射变换(affine) 仿射子空间(affine subspaces)

https://blog.csdn.net/weixin_41513917/article/details/102793640 原文翻译可以参考

https://gombru.github.io/2019/04/03/ranking_loss/ pairwise ranking loss

https://blog.csdn.net/JNingWei/article/details/80641184 metric learning

https://blog.csdn.net/yinyu19950811/article/details/84620633 MK-KNN

https://cloud.tencent.com/developer/article/1066396 特征空间

https://www.jianshu.com/p/d94e558ebe26 图像处理之特征提取

https://www.jianshu.com/p/d3cb4f4e1ff8 图像的特征提取与描述

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值