干货!旋转预测能够告诉我们分类器准确度的哪些信息?

点击蓝字

3db2370095391857e062e6164d4c90ae.png

关注我们

AI TIME欢迎每一位AI爱好者的加入!

理解新测试环境下的分类器决策是一个重要的问题,通常的做法是在已标记的测试集上对分类器进行评估。然而,在实际运用场景下,图像的类别标签通常很难获得且获取成本很高,尤其是测试环境在不断地变化。这引起一个自然的问题:给定一个训练好的分类器,我们能不能直接在未标记测试集上评估其准确性?在这项工作中,我们以多任务的方式训练语义分类和旋转预测。在一系列数据集上,我们报告了一个有趣的发现,即语义分类准确度与旋转预测任务的准确度呈强线性关系((Pearson’s Correlation r>0.88)。这一发现使我们能够利用线性回归器从旋转预测的准确性来估计分类器的性能,而旋转预测不需要人工标注且可以通过自由生成的方式在无标签的测试集上获得。

本期AI TIME PhD直播间我们邀请到澳洲国立大学博士生——邓维建,为我们带来报告分享《旋转预测能够告诉我们分类器准确度的哪些信息?》

884385acb358619000587f81dbca91e8.png

邓维建:

澳洲国立大学博士三年级在读博士,在Prof. Stephen Gould和Dr. Liang Zheng指导下进行模型泛化能力研究。

个人主页:https://weijiandeng.xyz/

01

 背  景 

当我们将人脸识别部署在机场的时候,或者将3D目标检测部署在一个新城市的时候,由于模型面对的是一个全新且无标注的测试环境,因此我们无法采用具体的指标来衡量模型的准确度。而重新对新的测试数据进行标注的工作量巨大,这就引出了一个比较有意思的问题:如何估计分类器在无标签测试集上的准确率。

c00fa0a050f12f25e65274c77d3149f1.png

在本文工作中我们探究如何利用自监督信息来估计分类器的准确率。我们采用了一个多任务学习的架构,即一个神经网络做两个任务,第一个任务是旋转角度的预测,第二个任务是图像分类预测。

32aa0f9bbe3903e690f32831622abeb5.png

当我们训练好这个多任务网络之后,给定三个测试集,可获得模型在上面旋转预测准确率和分类预准确率。我们发现如果模型在测试集上的旋转预测性能好,那分类性能也好。值得注意的是旋转任务是一个自监督任务,旋转任务的角度标签是人为设置的,因此不用后期人为标注。如果旋转预测精度与分类精度相关,我们可以在任何测试集上自由获取其旋转标签并计算其精度,然后我们可以根据旋转预测精度预测分类器性能。

f349a2ddbb9154bade327eeefb64c7da.png

为此,我们进行相关性分析:首先收集了来自不同分布的测试集集合,然后计算多任务网络在这些测试集合上的图像分类准确率和旋转预测准确率。最后,我们根据不同测试集合上两个任务的性能来进行相关性分析。

那么如何得到不同的测试集合呢?我们利用图像变换的方式,比如旋转、平移、光照变化、颜色扰动等,而且图像变换后数据的标签不会改变。

0f7c790120d75e531f92879f33296bfc.png

下面是旋转预测和图像分类预测相关性分析的结果,从实验结果可得这两个任务具有较强的相关性,Pearson系数高于0.88。

a7b0abe892e72ff8ca13403b805b2052.png

另外,我们还通过实验验证了更换不同的网络架构,旋转预测和图像分类预测仍然具有很强的相关性,如下图所示。

05c96081700330630f1327fb6351d615.png

值得注意的是,旋转预测只有四个角度,因此该任务是一个四分类问题。当图像分类任务类别数较多之后,二者相关性又是怎么变化的呢?我们引入了CIFAR-100(100类)数据集进行实验,结果显示虽然两个任务的相关性较CIFAR-10(10类)上有所下降,但仍属于一个较高的相关性。

087a62bfb269442505e261b44f4ca0ef.png

此外,我们还在Tiny-ImageNet(200类)上进行了相关性实验,实验结果显示两个任务的相关性仍然处于一个较高的水平。

031a067bbbdada9b2f037d9365fc89c0.png

根据相关性分析的发现,我们可以训练一个线性回归器,该回归器的输入是旋转预测任务的性能,输出是分类器性能的估计。通过这个回归器我们可以评估一个模型在新的测试场景下的分类性能了。

14b197610f5227ec80c56828bb4ff4c1.png

03

 实  验 

数据集设置:

利用Training set训练神经网络,在Seed set合成测试集合,基于合成测试集训练线性回归器,在Test set上估计训练好的线性回归器性能。

c67006dea1ade1e693c96eb7c26895f5.png

评价指标:均方误差(RMSE)

实验结果:

两个直观的基准方法:

(1)如果softmax输出的最大值(预测分数)大于,我们认为该样本分类正确;

(2)如果softmax输出的熵值(熵分数)低于T2,我们认为该样本分类正确。

我们提出的线性回归器在所有测试集上实现了相当好的估计。这说明我们可以通过旋转预测这一自监督任务来估计分类器在无标签测试集合上的性能。

7915b847d6f50936b0ede5e9361435ce.png

论文链接:https://arxiv.org/pdf/2106.05961.pdf

代码链接:https://weijiandeng.xyz/Rotation

点击“阅读原文”,即可观看本场回放

整理:爱 国

审核:邓维建

AI TIME欢迎AI领域学者投稿,期待大家剖析学科历史发展和前沿技术。针对热门话题,我们将邀请专家一起论道。同时,我们也长期招募优质的撰稿人,顶级的平台需要顶级的你!

请将简历等信息发至min.gao@aminer.cn!

微信联系:AITIME_HY

AI TIME是清华大学计算机系一群关注人工智能发展,并有思想情怀的青年学者们创办的圈子,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法、场景、应用的本质问题进行探索,加强思想碰撞,打造一个知识分享的聚集地。

c8f5127db1ffbe2d7f3496284fe4bcb0.png

更多资讯请扫码关注

2209bc28c91630e1bab2c5c7ab3e3163.png

我知道你在看

ba72c16e8cbaf7213555f48cddd20cb3.png

点击“阅读原文”查看精彩回放

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值