PIP-Net: Patch-Based Intuitive Prototypes for Interpretable Image Classification论文阅读记录
1、专业名词
论文阅读记录
本论文发表在cvpr
专业名词
自监督学习(Self-Supervised Learning)
是无监督学习里面的一种,也被称作(pretext task)。自监督学习主要是利用辅助任务(pretext)从大规模的无监督数据中挖掘自身的监督信息,通过这种构造的监督信息对网络进行训练,从而可以学习到对下游任务有价值的表征。
自监督学习的优势,就是可以在无标签的数据上完成训练,而监督学习需要大量的有标签数据,强化学习需要与环境的大量交互尝试,数据为王的时代,此特点也使得大家充分相信自监督学习才是人工智能的发展方向。
自监督的主要方法可以分为三类:
● 基于上下文(Context based)
基于数据本身的上下文信息,我们可以构造很多任务,如NLP领域中重要的Word2vec算法。Word2vec主要是利用语句的顺序,例如CBOW通过利用周围词来预测中心词,而Skip-Gram通过中心词来预测周围的词。
在图像领域,研究人员通过一种名为Jigsaw(拼图)的方式来构造辅助任务(pretext)。将一张图分成9个部分,然后通过预测这几个部分的相对位置来产生损失。比如输入这张图中小猫的眼睛和右耳朵,然后让模型学习到猫的右耳朵是在眼睛的右上方的,如果模型能够很好得完成这个任务,那么就可以认为模型学习到的表征是具有语义信息的。
● 基于时序(Temporal Based)
在基于上下文的方法中大多是基于样本本身的信息,而样本间其实也具有很多的约束关系,因此可以利用时序约束来进行自监督学习。最能体现时序的数据类型就是视频(video)。
在视频领域可以基于帧的相似性进行研究,对于视频中的每一帧存在特征相似的概念,简单来说可以认为视频中的相邻帧的特征是相似的,而相隔较远的视频帧之间的相似度较低。通过构建这种相似(positive)和不相似(negative)的样本来进行自监督约束。
● 基于对比(Contrastive Based)
第三类自监督学习的方法是基于对比约束,它通过学习对两个事物的相似或不相似进行编码来构建表征。在第二部分中所介绍的基于时序的方法已经涉及到了基于对比的约束,其通过构建正样本(positive)和负样本(negative),然后度量正负样本的距离从而实现自监督学习。
此处参照公众号:浦东国际人才港
原型
原型(Prototype)在解释可解释模型中的含义是:
原型代表模型学习到的一组重要特征或模式,这些特征/模式可以用来解释和表示输入样本中的某些重要概念或特征。
比如在图像分类模型中,原型可以代表某个物体的具有代表性的某个部件,如狗的耳朵或眼睛。
原型具有以下特征:
1 学习自动提取,而不是人工指定。
2 可解释性强, correspond 到人眼可识别的实际概念。
3 可以用来解释模型如何对样本进行分类。
模型预测狗图片时,如果 Eyes 原型的权重高,表明模型通过检测眼睛这一特征作出判断。通过使用原型,模型可以用更直观和人性化的方式解释其内部运作机制,同时也可以对学习效果进行监督和评估。
总体来说,原型作为一组概念或模式,可视为是模型自动学习到的解释要素,有助于理解模型的决策逻辑。
此处参照:原文链接:https://blog.csdn.net/qq_49370210/article/details/135305237
细粒度图像
图像识别分为两种:传统图像识别和细粒度图像识别。前者指的是对一些大的类别比如汽车、动物、植物等大的类别进行分类,这是属于粗粒度的图像识别。而后者则是在某个类别下做进一步分类。比如在狗的类别下区分狗的品种是哈士奇、柯基、萨摩还是阿拉斯加等等,这是属于细粒度图像识别。
OOD
OOD detection意为out-of-distribution检测。
即检测输入样本是否来自模型训练时使用的数据分布,如果来自其他不同分布的数据,则将其检测为OOD(out-of-distribution)。