文章目录
一、数据准备
蛋白质比赛采用了kaggle官网提供的数据集,以及额外的人类蛋白质图谱网站的数据集。
- 人类蛋白质图谱网站:https://www.proteinatlas.org/
二、数据增强
1. 数据增强目的:
- 增加训练的数据量,提高模型的泛化能力。即使拥有大量数据,也需要采用数据增强的方法来提高模型泛化能力。
- 增加噪声数据,提升模型的鲁棒性。
2. 数据增强方法
- 对图片进行比例缩放
- 对图片进行随机位置的截取
- 对图片进行随机水平和竖直翻转
- 对图片进行随机角度的旋转
- 对图片进行亮度、对比度和颜色随机变化
- …
3.自动数据增强方法
自动数据增强方法:Data AutoAugment。
来自谷歌研究人员在arXiv 上发表的论文,提出一种自动搜索合适数据增强策略的方法 :《AutoAugment: Learning Augmentation Policies from Data》。
该论文主要的观点是创建一个数据增强策略的搜索空间,直接在感兴趣的数据集上评估特定策略的质量。在AutoAugment的实现过程中,设计了一个搜索空间,该搜索空间中的一个策略包含了许多子策略,我们为每个小批量(mini-batch)中的每张图像随机选择一个子策略。每个子策略由两个操作组成,每个操作都是类似于平移、旋转或剪切的图像处理函数,以及应用这些函数的概率和幅度(magnitude)。
三、损失函数
- 比赛损失函数采用gamma值为2的Focal Loss。
1.损失函数来源
该损失函数来自于论文:《Focal Loss for Dense Object Detection》。
- 论文链