多标记学习

最新推荐文章于 2022-01-02 10:00:00 发布

峰峰517

最新推荐文章于 2022-01-02 10:00:00 发布

阅读量7.4k

点赞数 4

分类专栏：数据挖掘文章标签：多标记学习分类问题转换

本文链接：https://blog.csdn.net/huangfeng1993/article/details/42173771

版权

多标记学习是给数据实例贴上多个不同类标记的任务，与传统的分类任务不同。常见的解决方法包括问题转换，如BR（Binary Relevance）、PW（Pairwise）、LC（Label Powerset）模型。BR模型通过为每个标签建立单独的二元分类器，但可能忽视标签间的关联。ML-knn是一种基于BR的扩展，考虑了不平衡类问题。其他模型如Classifier Chain则尝试捕捉标签间的依赖关系。

摘要由CSDN通过智能技术生成

1.什么是多标记学习

对于传统的分类器，分类器的工作是把新来的数据实例根据它的特征贴上一个类标记，如果说这个类标记的取值空间只有两个，那么它就是二元分类，如果是多个就是多元分类。而多标记学习呢，则是给数据实例贴上许多个不同的类标记。然后多标记学习应用也很广泛，比如说一篇文章，它可能属于言情呀，武侠呀等等多个主题。再比如说一种蛋白质对人体而言会有很多种作用等等，这些都是多标记学习的应用。还有一点，我们这里举的例子它们的类标记都是同一个体系的，比如说，言情，武侠都属于文章主题。但是虽然我没有找到明确的说法，但我认为多标记学习不仅限于此，它同样可以预测一篇文章是哪几个主题外加哪几种风格甚至作者是谁。

2.怎么解决多标记学习

根据这个思想，我们多标记学习第一大解决模型就是通过问题，转换，具体有三种问题转换的模式：BR,PW,以及LC。什么是问题转换呢？首先我们回忆下我们是如何从二元分类问题怎么扩展到多元分类呢？有一种解决的模式是把多元分类问题转化为几个我们已经解决的二元分类问题求解。

具体来讲，有两种方式，第一是one vs rest方法：

我们要对下面左图中的菱形，方形，五角星，三角形做分类，那么我们会分别针对这4类数据做一个二元分类器，比如说正方形，我们就会把原始的训练集由左图转化为右图的形式，把正方形当做一类数据，而把菱形五角星三角形合起来当做另一类数据，然后把转化后的训练集用二元分类算法训练，就得到啦判断新数据是不是正方形的分类器。