在机器学习项目中,数据集对算法模型的性能是有很大的影响的,特别是现在深度学习,对于数据集的要求就更高了,经常我们都可能会遇到数据集数量太少的情况,这时候除了再人工搜集新的数据,另外一个做法就是数据增强,从已有的数据通过一些方法,包括一些算法来进行拓展,得到更多数量的数据集。
今天介绍的是一个介绍了几个常见的数据增强项目和其他相关的论文代码的 Github 项目,其 github 地址:
常见的项目
imgaug
这个项目的 star 数量是已经有 8k 多了,显示使用的数量也有 2k多,克隆仓库的有1k多,的GitHub地址:
它可以实现的效果包括添加噪音、仿射变换、裁剪、翻转、旋转等,其效果图如下所示:
Albumentations
这第二个项目是 2018年的一篇论文《Albumentations: fast and flexible image augmentations》的实现代码,论文地址:
github 项目已经有 4k 的star,地址如下:
该项目的特点有:速度比大部分的库都要快;
基于 numpy 和 OpenCV 两个库,并选择最合适的一个
接口简单,灵活
大量的多种的变换方法实现
易于拓展应用到其他的任务或者库
支持的变换操作对象有图像、masks、关键点、边界框
支持 python 3.5-3.7 的版本
可以和 PyTorch 结合使用
已经被应用到很多深度