样本单元的层次,因人而异的烦恼,以及通过最小化类内散度来解耦

现象

我有一个学生在做疼痛表情量化(0、1、2、3、。。),另一个学生在做XXXXX瘤的识别(正常、扩增、癌变)。前者旨在替代人工评价,后者只在替代基因化验;前者的输入是视频,后者的输入是CT片子。在前者,一个人有很多视频,一个视频有很多帧,但没有很多人的数据;在后者,一个人有很三期影像,一期影像有很多slice,但没有很多人的数据(因为该瘤是小众疾病)——样本是有层次的。现在两个学生观察到共同的现象:识别性能因人而异。学生倾向于把所有人的数据混在一起,然后shuffle,再做训练、验证、测试集的划分——实证测试性能要好一些、稳定一些。但这样做是有问题的,同一个人的的帧间是有高相关性的;但是,这样有作弊之嫌——可能前一帧在训练集,后一帧在验证集。普遍认可的做法是按人划分,一个人的所有数据只能在三个集中的一个,但得到的测试性能要差一些、不稳定一些(交叉验证标准差较大)。

可能原因

现在尝试分析原因。我认为是特征耦合。在某一个类别里,本来就存在不同人的样本。以为不同疼痛级别的样本特征就不同,同一疼痛级别的样本特征相似。但是,疼痛级别可能与人的身份的特征耦合:不同疼痛级别的样本的特征可能大部分是身份特征,所以来自同一个人的区分的开,不同人的区分不开;同一疼痛级别的样的特征不一定就相似,如果身份特征占比很大,只有来自同一人的同一疼痛级别的特征才相似,而来自不同人的同一疼痛级别的特征还是不相似。

因人而异是大部分关于人的识别问题里普遍存在的因素。类似的,以为不同病情(正常、扩增、癌变

  • 3
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值