【笔记】Discovering and Exploiting Deterministic Label Relationships in Multi-Label Learning

从多标签数据中学习知识,已成为近些年机器学习和数据挖掘方向的关注点。由于多标签数据的实际运用越来越多,关于这方面的研究也遇到一些挑战,例如运用标签的依赖性进行学习。正是如此,关注这些确定性的关系的自动学习,并且利用这些知识提高多标签学习算法的准确性,已成为热点问题。运用多标签数据中确定性的关系不是新东西,过去的方法在实际运用上不是很成功,而且缺少理论基础。
作者在本文提出利用多标签模型的边缘概率来发现标签中确定性的关系的概率方法。主要关注标签中的两类关系,一类是成对的蕴含关系,其中一个标签存在意味着另一个标签也存在。另一类是排斥关系,标签集不能在数据集的同一实例中共存。
对于一个有q个标签的多标签数据集,不难提取其中的蕴含关系,对于多个标签中的排斥关系,遵循Apriori算法的思想,找到最大的互斥标签集,即它们中的每一个不是另外一个的子集。Apriori算法是关联规则里的一项基本算法,寻找最大互斥标签集的思想类似于迭代寻找频繁集,从两个标签再到三个标签,以此类推。
可以利用确定性的贝叶斯网络代表这些关系, 贝叶斯连接两个节点的箭头代表此两个随机变量是具有因果关系, 两节点之间会产生一个条件概率值。为了解决典型标签集中的一些问题,对那些确定性的节点添加父节点作为leak节点,相当于一个新的虚拟标签,按照规定设定虚拟标签的值。标签中的互斥关系是通过添加一个新的确定性节点作为所有标签的公共子节点,但有时所有标签没有覆盖所有的训练例子,和蕴含关系的处理方式相似,为这个公共子节点添加一个父节点作为leak节点,也按规定设定虚拟标签的值。创建出这个网络后,使用一个多标签算法来计算边缘概率以适应扩展的训练集,当然,这个包括虚拟标签,然后使用概率推断算法更新每一个标签的概率,使得概率与发现的关系一致,在《Bayesian Artificial Intelligence》中提到,任何一个概率推断系统的基本任务是对请求节点的集合计算后来的概率分布,为点进行赋值。
作者接着讨论了一些确定性关系和概率性关系的方法。对于蕴含关系,作者所提出的方法基于简单的列联表,而排斥关系,遵循关联规则挖掘的范式。确定性贝叶斯网络使用虚拟节点与数据网络的确定性条件概率保持一致。随后利用实验验证理论的可靠,实验结果对每个标签发现的关系越多,MAP提高的越多提供了支持,实验中还发现了这种方法出现相反的结果,可能是在存在大量标签的数据集中发现大量虚假的排斥关系,两个标签的越少,互斥的可能性越高,之间的语义也无关系,这时候以指数级的速度增加最小支持数直到获得小的关系集合。有时将蕴含关系和排斥关系组合使用的性能小于单独使用一个关系的性能,这也是虚假的排斥关系存在的信号。
这篇文章中,对已有方法的改进,增加虚拟标签后进行计算,准确度得到了提高,但与此同时,增加虚拟标签带来了额外的开销。对于虚假排斥关系的存在,调整最小支持数,也将带来额外的开销。但总的来说,准确度最终得到了提高,运用在实际上,也有了理论基础。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值