1.什么是多标记学习
对于传统的分类器,分类器的工作是把新来的数据实例根据它的特征贴上一个类标记,如果说这个类标记的取值空间只有两个,那么它就是二元分类,如果是多个就是多元分类。而多标记学习呢,则是给数据实例贴上许多个不同的类标记。然后多标记学习应用也很广泛,比如说一篇文章,它可能属于言情呀,武侠呀等等多个主题。再比如说一种蛋白质对人体而言会有很多种作用等等,这些都是多标记学习的应用。还有一点,我们这里举的例子它们的类标记都是同一个体系的,比如说,言情,武侠都属于文章主题。但是虽然我没有找到明确的说法,但我认为多标记学习不仅限于此,它同样可以预测一篇文章是哪几个主题外加哪几种风格甚至作者是谁。
2.怎么解决多标记学习
根据这个思想,我们多标记学习第一大解决模型就是通过问题,转换,具体有三种问题转换的模式:BR,PW,以及LC。什么是问题转换呢?首先我们回忆下我们是如何从二元分类问题怎么扩展到多元分类呢?有一种解决的模式是把多元分类问题转化为几个我们已经解决的二元分类问题求解。
具体来讲,有两种方式,第一是one vs rest方法:
我们要对下面左图中的菱形,方形,五角星,三角形做分类,那么我们会分别针对这4类数据做一个二元分类器,比如说正方形,我们就会把原始的训练集由左图转化为右图的形式,把正方形当做一类数据,而把菱形五角星三角形合起来当做另一类数据,然后把转化后的训练集用二元分类算法训练,就得到啦判断新数据是不是正方形的分类器。