样本单元的层次，因人而异的烦恼，以及通过最小化类内散度来解耦

最新推荐文章于 2023-06-12 22:25:25 发布

eglxiang

最新推荐文章于 2023-06-12 22:25:25 发布

阅读量333

点赞数 3

分类专栏： CV

本文链接：https://blog.csdn.net/eglxiang/article/details/117134862

版权

在人脸识别和病症识别等任务中，发现性能因人而异，原因是特征与个体身份耦合。为了解耦这个问题，提出了通过最小化类内散度来优化模型性能，例如使用Center loss，使模型在不同个体样本上表现更稳定。特征学习的解耦表征学习也是解决此类问题的有效方法。

摘要由CSDN通过智能技术生成

现象

我有一个学生在做疼痛表情量化（0、1、2、3、。。），另一个学生在做XXXXX瘤的识别（正常、扩增、癌变）。前者旨在替代人工评价，后者只在替代基因化验；前者的输入是视频，后者的输入是CT片子。在前者，一个人有很多视频，一个视频有很多帧，但没有很多人的数据；在后者，一个人有很三期影像，一期影像有很多slice，但没有很多人的数据（因为该瘤是小众疾病）——样本是有层次的。现在两个学生观察到共同的现象：识别性能因人而异。学生倾向于把所有人的数据混在一起，然后shuffle，再做训练、验证、测试集的划分——实证测试性能要好一些、稳定一些。但这样做是有问题的，同一个人的的帧间是有高相关性的；但是，这样有作弊之嫌——可能前一帧在训练集，后一帧在验证集。普遍认可的做法是按人划分，一个人的所有数据只能在三个集中的一个，但得到的测试性能要差一些、不稳定一些（交叉验证标准差较大）。

可能原因

现在尝试分析原因。我认为是特征耦合。在某一个类别里，本来就存在不同人的样本。以为不同疼痛级别的样本特征就不同，同一疼痛级别的样本特征相似。但是，疼痛级别可能与人的身份的特征耦合：不同疼痛级别的样本的特征可能大部分是身份特征，所以来自同一个人的区分的开，不同人的区分不开；同一疼痛级别的样的特征不一定就相似，如果身份特征占比很大，只有来自同一人的同一疼痛级别的特征才相似，而来自不同人的同一疼痛级别的特征还是不相似。

因人而异是大部分关于人的识别问题里普遍存在的因素。类似的，以为不同病情（正常、扩增、癌变