现象
我有一个学生在做疼痛表情量化(0、1、2、3、。。),另一个学生在做XXXXX瘤的识别(正常、扩增、癌变)。前者旨在替代人工评价,后者只在替代基因化验;前者的输入是视频,后者的输入是CT片子。在前者,一个人有很多视频,一个视频有很多帧,但没有很多人的数据;在后者,一个人有很三期影像,一期影像有很多slice,但没有很多人的数据(因为该瘤是小众疾病)——样本是有层次的。现在两个学生观察到共同的现象:识别性能因人而异。学生倾向于把所有人的数据混在一起,然后shuffle,再做训练、验证、测试集的划分——实证测试性能要好一些、稳定一些。但这样做是有问题的,同一个人的的帧间是有高相关性的;但是,这样有作弊之嫌——可能前一帧在训练集,后一帧在验证集。普遍认可的做法是按人划分,一个人的所有数据只能在三个集中的一个,但得到的测试性能要差一些、不稳定一些(交叉验证标准差较大)。
可能原因
现在尝试分析原因。我认为是特征耦合。在某一个类别里,本来就存在不同人的样本。以为不同疼痛级别的样本特征就不同,同一疼痛级别的样本特征相似。但是,疼痛级别可能与人的身份的特征耦合:不同疼痛级别的样本的特征可能大部分是身份特征,所以来自同一个人的区分的开,不同人的区分不开;同一疼痛级别的样的特征不一定就相似,如果身份特征占比很大,只有来自同一人的同一疼痛级别的特征才相似,而来自不同人的同一疼痛级别的特征还是不相似。
因人而异是大部分关于人的识别问题里普遍存在的因素。类似的,以为不同病情(正常、扩增、癌变