多标签学习介绍

Hi, 我是cici。很高兴可以借此平台认真的写一写读文笔记(平时都太懒了-o-)。我目前关注的方向是在线超多标签半监督学习

在一年半前的实习期间,一个跟我关系很好的实习生接到一个任务。这个任务的具体内容是帮助一家旅游公司分析用户的行为(浏览内容,留言等)找到该用户感兴趣的项目。当时我们把该任务定性为多标签问题,但是我们对该领域是一脸懵。最后我在该项目中只是参与了数据处理部分,对多标签学习模型并没有深入研究。但却埋下了一颗好奇的种子(只要是没有接触过的问题都感到新鲜 lol)。

想必大多数同学也很少听说多标签学习,今天我就来揭开它的面纱。

Multi-label Learning 简介

一般的分类问题主要聚焦于二元分类和多分类(单标签学习),也就是每一个对象只属于一个类别,类别之间是相互排斥的。但是在很多应用中,一个对象可以属于好几个类别,比如说:一条新闻可以对应多个主题,政治,经济,外交;一张城市照片上可以有多个物体,车辆,行人,马路,建筑物等等。在很多实际应用领域中,如多媒体内容标注、文本信息标注、遗传基因等等都需要用到多标签学习。多标签是一般分类问题的扩展,一个多标签学习模型的目标是预测每个输入实例所对应的所有的标签。

相比较于一般分类问题,多标签学习的主要难点在于潜在的巨大输出空间。因为随着标签数量的增加,要预测的标签组合的数量呈指数增长。例如,对于一个具有 L = { l 1 , . . . , l 20 } \mathcal{L}=\{l_1, ..., l_{20}\} L={l1,...,l20} 标签的数据集,每个数据对应的标签组合一共有 2 20 2^{20} 220(超过100万)种。这也就导致分类器的计算成本过高。且各个标签组合对应的示例数量的不相等(数据不平衡),会进一步增加学习的难度。

多标签问题的特点是,标签之间存在着一定的关联。比如在电影分类中, 一部电影具有标签儿童,那它也有很大概率具有标签家庭。相反,如果电影具有标签恐怖,那该电影几乎不可能具有标签儿童。多标签学习最有趣的地方在于我们可以通过挖掘标签之间的关系,来进行建模。

多标签分类方法

接下来,我将粗略的介绍现有的分类方法。主流文章将现有的多标签分类方法分为两大类:1)问题转换法 problem transformation 2) 适应法 algorithm adaptation

问题转换法,顾名思义,就是将问题进行转换,它将多标签分类问题转化为多个简单的单标签分类问题。

  • Binary Relevance (BR) :最“古老的”方法之一。将原始数据集 D D D 转换为 ∣ L ∣ |\mathcal{L}| L个包含原始数据集所有示例的数据集 D l , l ∈ L D_{l, l\in\mathcal{L}} Dl,lL,如果原始示例的标签包含 l l l,则标记为 1 1 1,否则标记为 0 0 0。 然后训练 ∣ L ∣ |\mathcal{L}| L 个二分类模型即可。该方法的最大缺点,即忽略标签之间的关联,将每个标签单独处理,丢失了大量的信息。
  • Classifier Chain (CC) : 在BR的基础上进行改良,即考虑标签之间的关系。 在CC算法中,也将学习 L L L个分类器。每一个分类器的预测结果将作为一个数据特征传给下一个分类器,参与进行下一个类别的预测。该方法的缺点是分类器之间的顺序会对模型性能产生巨大影响。
  • Label Powerset (LP) : 对每一种标签组合建立一个分类器, 2 L 2^L 2L个分类器。虽然现有算法会对 2 L 2^L 2L个标签组合进行裁剪,即从未出现或者很少出现的标签组合都不计入。但是该方法的复杂度依旧过高。

适应法则是修改现有的单标签分类算法以适应解决多标签分类问题。比如修改后决策树 : 最后每一个叶子都将对应一个标签组合;修改SVM或者神经网络等,对每个标签得到的值进行排序,然后通过最小化ranking loss进行学习,等等。有兴趣的同学可以继续深入学习哦。介于本文属于科普,我就不再深入进行介绍啦。

总结

对多标签学习进行了粗略的介绍。该领域还有很多问题尚待进一步发展。比如实际应用中,标签的数量可能会成千上万,比如百科文本分类,高纬度的数据为多标签学习带来巨大的挑战。

参考资料

  • Tsoumakas, G., & Katakis, I. (2007). Multi-label classification: An overview.
  • Alazaidah, R., & Ahmad, F. K. (2016). Trending challenges in multi label classification.
  • Zhou, Z. H., & Zhang, M. L. (2017). Multi-label Learning.

更多算法基础知识介绍,前沿论文解读,欢迎关注微信公众号:口袋AI算法
在这里插入图片描述

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值