Extreme Multi Label Classification
整合自知乎三篇文章:
大规模多标签分类,作者:Cppowboy
层级性多元标签文本分类,作者:烛之文
层次多标签意图分类综述,作者:斯多歌
方法综述
大规模多标签分类大致有以下几类解决办法:
- 1 VS. All classifier
把多标签分类看成多个二分类,为每一个label训练一个二分类模型,其缺点是,各个标签之间相互无关,当标签数量非常非常多的时候,难以训练与标签数量相同的模型。
- Label Tree based
其思想类似决策树,把所有的标签按树状结构组织起来,从上到下分类,每层只需要训练一个小的分类器,最终分类的叶子节点。这样的缺点是,从上到下的分类过程中,误差可能会累积,导致性能较差。这种方法经常会用到ensemble的模型。
- Embedding based
假设最后的特征维度是 h h h,类别标签数量是 C C C