论文笔记 | 深度学习图像数据增广方法研究

最新推荐文章于 2024-04-28 06:28:08 发布

mustuo

最新推荐文章于 2024-04-28 06:28:08 发布

阅读量1.4k

点赞数

分类专栏： # 计算机视觉文章标签：计算机视觉机器学习深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/mustuo/article/details/118383083

版权

计算机视觉专栏收录该内容

10 篇文章 0 订阅

订阅专栏

1 背景

在许多领域，受限于数据获取难度大，标注成本高等原因，往往难以获得充足的训练数据，这样训练得到的深度学习模型往往存在过拟合的问题，进而导致模型泛化能力差，测试精度不高等。

数据扩充的作用：扩大样本集，提高模型泛化能力。

2 定义

数据增广，又称数据增强（data augmentation），是一种增加有限数据的数据量和多样性的策略，试图从样本训练不足这一根本原因出发解决过拟合问题。

3 方法

3.1 单数据变形

操作对象：单个数据

通过各种变换操作改变原始数据的表现形态，以产生不同于原始数据的新数据。

3.1.1 几何变换（geoneteic transformations）

原理：通过旋转、镜像、平移、裁剪、缩放和扭曲等变换方式生成新样本。

相当于在数据集上增加视角、位置方面的偏差以增强鲁棒性。

优势：简单易实现，在大多数情况可以保留图像原有的语义标注。
缺点：对数据重复记忆、增加信息量有限

【例】手写体识别：LeNet-5（LeCun等，1998）对MNIST数据集进行了四种仿射变换方式（平移、缩放、挤压、水平裁剪），将测试机错误率由0.95%降低到了0.8%。在本例中，仿射变换不会改变图像原本的语义标注。

注意点：选用的变换方法是否会改变图像原本的语义信息。对于现实生活物体或场景的数据集，如CIFAR-10、ImageNet，图像的纵向像素往往具有一定的语义，因此垂直镜像和过度旋转会完全改变图像原本的语义标注；而对于遥感图像，各方向的镜像都能保留语义信息。

CIFAR-10是一个包含10类物体的更接近普适物体的彩色图像数据集

Taylor和Nitschke（2017）的实验表明，对于生活中的物体图像：

可旋转和镜像的程度有限，可增加的图像数量有限
裁剪可得到更多的图像，且可以为模型引入物体在不同视角位置的更多信息。

3.1.2 色域变换（color space transormations）

原理：在图像各通道上进行亮度变换的生成方式。通过对数据集增加各种光照亮度偏差，增强模型在不同光照条件下的鲁棒性。

色域变换可保证模型在不同光照条件下的稳定性。

色域变换没有增加图像中物体的空间信息
可能丢失一些重要的颜色信息从而丢失图像的语义信息。

实现：

第一种，通道分段线性变换。根据RGB三通道，分离出三幅单色图像，分别进行分段线性变换。

第二种，直方图变换。通过改变图像的直方图来进行色彩变换。

第三种，PCA抖动（fancy PCA）。对原图像进行主成分分析（PCA），求得协方差矩阵，然后对主成分的特征值施加一个均值为0的随机扰动，再反变换回去。类似于给图像加了一个滤镜。

Taylor和Nitschke（2017）的实验表明：

对于图像分类任务，空间几何信息比色彩信息更重要

3.1.3 清晰度变换

又被称为“核滤波器（kernel filters）”，与CNN的卷积核类似。

原理：通过滑动的n×m的矩阵对图像进行锐化和模糊处理，实现清晰度变换。

模糊：高斯滤波器 --> 应对运动模糊
锐化：高对比度的水平或垂直的边缘滤波器（edge filter） --> 突出物体更多细节信息

3.1.4 噪声注入（noise injection）

模拟自然噪声
人工设计噪声
- 对抗噪声：用于对抗训练，针对对对抗样敏感的任务
- 标签扰动：随机替换一些样本的标

3.1.5 局部擦除

原理：随机或人为对局部区域所有像素值信息的丢失，可视为一种再数据空间的dropout，相当于再图像上增加一些遮挡。

缺点：随机擦除可能篡改图像原有的语义信息。如“7”和“8”有可能因为局部信息的丢失，被篡改为“1”、“6”。

3.2 多数据混合

操作对象：多幅图像

3.2.1 图像空间的数据混合

SamplePairing

SamplePairing 从训练集中随机抽取两幅图像,分别经过基础数据增广操作(如随机裁剪、水平翻转等)处理后,以像素值取平均值的形式叠加两幅图像合成一个新的样本,标签为原样本标签中的一种。

关注

0
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
论文笔记 | 深度学习图像数据增广方法研究

1 背景在许多领域，受限于数据获取难度大，标注成本高等原因，往往难以获得充足的训练数据，这样训练得到的深度学习模型往往存在过拟合的问题，进而导致模型泛化能力差，测试精度不高等。数据扩充的作用：扩大样本集，提高模型泛化能力。2 定义数据增广，又称数据增强（data augmentation），是一种增加有限数据的数据量和多样性的策略，试图从样本训练不足这一根本原因出发解决过拟合问题。3 方法3.1 单数据变形操作对象：单个数据通过各种变换操作改变原始数据的表现形态，以产生..
复制链接

扫一扫

专栏目录

mustuo CSDN认证博客专家 CSDN认证企业博客

码龄7年

94: 原创

2万+: 周排名

1万+: 总排名

23万+: 访问

: 等级

1756: 积分

134: 粉丝

171: 获赞

23: 评论

359: 收藏

私信

关注

分类专栏

最新评论

Linux快速部署大语言模型LLaMa3，Web可视化j交互（Ollama+Open Web UI）
tao_yiyan: 老师您好，在”侧边导航栏-连接“这里，我的”Ollama 基础 URL“中的内容是空的，请问具体该怎么检查ollana服务？（我测试过了ollama的连接，在浏览器中访问http://ip:xxxx，是显示文本”Ollama is running“的）
Linux快速部署大语言模型LLaMa3，Web可视化j交互（Ollama+Open Web UI）
qq_22194781: web跑起来没有找到模型怎么办
js和ts中的null与undefined
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天值得看】榜单，全部的排名请看 https://bbs.csdn.net/topics/618397006。
jspdf：即时生成pdf的插件，支持表单图文混排
CSDN-Ada助手: 推荐 Java 技能树：https://edu.csdn.net/skill/java?utm_source=AI_act_java
蜜罐 | HFish介绍
qq_38614521: windows版本的怎么卸载蜜罐

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。