目录
3 error correcting output codes(纠错码机制,多对多)
1 转换策略(Problem Transform Methods)
1)Binary Relevance(first-order)
2)Classifier Chains(high-order)
3)Calibrated Label Ranking(second-order)
注意:正例记作1,负例记作-1
一 单标签问题(二分类算法进行预测单标签多分类)
1 ovo(one versus one,一对一)
第一步:将k个类别的样本,进行两两类别样本组合,产生个训练数据子集
第二步:使用组合之后的数据子集训练模型,产生个训练模型
第三步:将分类器进行融合,采用多数投票法,产生预测值
2 ovr(one versus rest,一对多)
第一步:将第一个类别作为正例,其他所有类别作为负例,依次遍历剩下类别样本,从而产生k个数据子集
第二步:对每个数据子集训练模型,产生k个训练模型
第三步:将分类器进行融合
- 当只有一个正例输出的时候,该正例对应的类别,即为当前样本类别
- 当有多个正例输出的时候,根据分类器的置信度指标,选择最大置信度指标的正例输出,作为当前样本类别
注意:
置信度:常常使用精确率或者召回率,但是一般选择输出最大值作为置信度标准
3 error correcting output codes(纠错码机制,多对多)
第一步:编码阶段(训练阶段)
- 对k个类别数据,进行M次划分,产生M个数据子集,且每一次划分,将一部分数据作为正例,另一部分作为负例
- 对每个数据子集进行训练模型,产生M个模型
- 每个分类器模型预测值都对应空间上一个点
第二步:解码阶段(预测阶段)
- 将测试样本对应的点和类别对应的点求欧式距离
- 选择距离最小值对应的类别,作为预测值
注意:如图所示,M=5
二 多标签问题(分类算法预测多标签问题)
注意:根据多标签业务的复杂性,可以分为两大类型
- 第一种类型:多标签之间不存在依赖关系
- 第二种类型:多标签之间存在依赖关系