论文笔记-2022-When does Bias Transfer in Transfer Learning?

本文链接：https://blog.csdn.net/qq_43517800/article/details/125745617

2022-When does Bias Transfer in Transfer Learning?

文章是MIT Madry组最近挂在arxiv上的，Madry之前在adversarial领域做了很多有影响力的工作，例如最原始的adversarial training，以及adversarial examples are not bugs等等，笔者很喜欢Madry组的文章，思想性很强，逻辑很严谨，因此在这里分享一下Madry最新挂出来的这篇讲bias transfer的论文。

核心观点

文章最核心的观点是：当pretrained model （或者叫source model）是在存在bias的数据集上训练时，在source model上fine-tune得到的target model会继承这种bias，即使fine-tune阶段使用的数据集是de-biased的。
一点看法：这个观点本身不算新鲜，在backdoor领域是有很多研究的，但是文章对这个观点的研究层层递进，从人为的bias到天然存在的bias，这种研究思路很值得学习。

人工bias

这里构造bias的方式和backdoor attack是差不多的，文章在ImageNet数据集中所有跟"dog"相关的类别（一共有118个类别）图片中随机挑选一部分贴上一个黄色方块作为bias，同时图片的label不做改变
衡量模型的bias偏好：文章提出了一种计算attack success rate的方式度量模型的对bias的偏好 $T)=Pr(C(T(x))\ne y|C(x)=y)$ 。这里计算ASR的方式和backdoor稍有不同，可以理解为是一种untarget的计算方式，对于backdoor attack来说，计算ASR统计添加trigger后的样本被分到target class的比例，而本文只统计被分错的比例。
实验结果分为两类：一类是只对source model最后一层做fine-tuning（fixed-feature transfer）的结果，另一类是对source model所有层做fine-tuning（full-network fine-tuning）的结果。
Fixed-feature transfer：
Full-network fine-tuning：
可以看到，不管是何种fine-tuning方式，bias都会被保留，只是full-network fine-tunining的bias保留更少
bias的强度对target model的影响：这里bias的强弱用带trigger的图片比例衡量，用backdoor attack里的术语则是投毒率越高，bias越强。这里的实验结果比较有趣，对于下游的target model来说，继承的bias强弱和source data里的投毒比例并不成正比
当target dataset是de-biased，target model还会继承bias吗？这里de-biased的target dataset指的是：将trigger pattern均匀的分布在target dataset中，实验结果显示，如果使用fixed-feature transfer，则bias依然会保留；如果使用full-network fine-tuning，则bias会被消除掉

自然bias

之前研究的是backdoor里经常使用的块状trigger，如果bias不是人为制造的trigger，而是更加自然的特征，迁移学习还会把bias迁移到下游任务中吗？
文章生成了一种co-occurrence bias：在MS-COCO数据集中，作者挑选了所有带人的狗的图片，也就是说，虽然图片的标签是狗，但每张带狗的图片也带人，这可能会误导模型将所有带人的图片分成狗，事实也确实如此。
从实验结果可以发现，在测试集图片上加上人时，由biased source dataset得到的model更容易分错。这里有一个不太理解的地方是，为什么对于unbiased dataset得到的source model，还是会容易将猫分成狗。
此外，文章还构造了另一种bias，不过结论和co-occurrence bias的结论是一样的，即source bias会被下游任务继承。

客观存在bias

文章已经研究过人工bias和自然bias，然而这样的数据集要么经过人为修改，要么经过精心挑选，是否在source dataset本身就存在某种bias呢？
文章发现ImageNet数据集本身就存在bias：例如，“circular yellow shape”（黄色的环形）对于"tennis ball"（网球）来说就是某种bias，“chain-like pattern”（链状模式）对于"chainlink fence"（栅栏）来说也是某种bias。那么这种bias是否可以迁移到下游任务呢？
实验结果显示，讲target dataset中的图片加入chain-like pattern，模型容易分错，说明有source model fine-tune得到的target model继承了对于chain-like pattern的bias偏好。