宋文广 李程文 谭建平
摘 要:传统的图数据分类研究主要集中在单标签集,然而在很多应用中,每个图数据都会同时具有多个标签集。文章研究关于多标签图数据分类问题,并提出基于半监督的SVM多标签图数据分类算法。算法首先通过一对多二元分解将多标签图数据分解成多个单标签图数据。然后对分解后的图数据,运用半监督SVM进行分类。通过实验证明,该方法在已标注图数据较少情况下具有较高的分类精度。
关键词:图数据;多标签;半监督;自训练
單标签分类(二分类)是传统分类方法的主要研究方向,它是基于一幅图只有一个标签的假设上。在现实场景中,所用到的图数据一般都具有多个标签集[1-2]。
半监督学习即利用大量无标签数据和少量有标签数据共同训练模型。但半监督学习很难与监督学习分类性能相比,但从目前算法优化发展来看,半监督学习很有可能达到传统分类方法的性能。
1 基于半监督的SVM分类算法
2 实验
2.1 数据集
用一组化合物抗癌活性性能数据集作为实验用多标签数据集。该组数据包含了化合物对于10种癌症的抗癌活性性能的记录,将10种癌症中记录不完全的数据移除,得到812个被分配了10个标签的图。
2.2 评估方法
多标签分类比传统单标签分类问题需要不同的实验结果评估标准。在这里采用Ranking Loss和Average Precision评估多标签[3-4]分类性能。实验结果评估标准如下:
(1)Ranking Loss:评估分类实际输出值的性能,它的值由错误预测的标签对的平均值计算得到的。