深度学习数据对模型的影响

深度学习数据对模型的影响

本人作为一个深度学习小白,往往读论文只关注文章的pipeline是如何work的。忘记考虑数据对于模型的影响,也就导致对于论文的实验部分不太重视。对于同一个模型在不同数据集上性能差距很大也没有关注,故本文简单介绍一下数据对于模型性能的影响。

一、数据增强

数据增强是很多论文在实验部分对数据进行预处理的常见操作,常见的让我不以为意。从数据增强的使用频率来看,不难看出数据对于模型性能的重要性。此外不少论文专门研究如何去进行数据增强,比如AlignMixup等。

数据增强简单的说就是基于现有的数据集,通过一些列变换产生不同的数据集以此来增强网络性能。常见的变换有裁剪、旋转、平移、遮盖等。

在这里插入图片描述

数据增强是有一定的目的性的,故不是所有数据增强都可以直接使用,需要具体问题具体分析。举两个例子。

  • 比如想要训练一个分类网络去区分青和黄柠檬。数据集仅包含青和黄柠檬这两类图片。如果选择使用改变数据集颜色这种数据增强方式将会严重影响模型性能。因为分类模型区分这两类主要在于颜色。

在这里插入图片描述

  • 卷积网络有一种特性叫纹理倾向性。举个例子中的例子。如下图,是一个卷积分类网络得到的分类结果,可以看出C应该被识别成为一个猫,但应为卷积网络倾向于纹理特征,故决策为印度象。这个时候有人也许会说正常数据集怎么会出现C这种图片呢。是的,但是这个现象反映出得到的网络主要依赖纹理特征而形状特征也是一个重要的决策特征。如果能够让网络同时依赖这两个特征进行决策,这是不是可以提高网络特征。

    基于此,AlignMixup就采用对齐混合图像的方式进行数据增强,如下,获得狗的形状,企鹅的纹理的数据。这样也就提高了网络性能。

在这里插入图片描述

二、长尾分布

长尾分布比较常见,指的是数据集中少量类别占总数据集比重较大。如果使用带有长尾分布的数据集去直接训练分类网络的话,就会导致对于占比较大的类别能够较好的预测,占比较小的类别不能够较好的预测。这样做,模型整体性能就会下降。

三、数据量不足

数据量不足导致欠拟合,这是我们经常听到的,但是影响有多大呢。我们常用的数据集经过数据增强之后往往足够使用,这使得我们对于数据量不足这一情况欠考虑。尤其是当模型参数量很大,过于复杂时得到的性能比简单模型要差,这时候往往归结于模型的pipeline还是不够强大,却忽略了数据量的大小对模型性能的影响。

这里,我做了一个简单的实验——按比例去掉数据集来看看同一个模型得到的性能。结果如下.可以看到数据集数量对于模型性能影响较大。

数据占原数据集的比例Acc
100%95.6
50%90.6
10%87.5
5%80.2

上述只是数据集对于模型影响的一小部分,但足以看出数据集对于神经网络是比较重要的。只是可能我们平时跑实验都是拿处理好的数据集来做,比较理想化,容易忽略数据集对于模型的影响。

  • 3
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
深度学习数据预测模型是一种利用深度神经网络进行数据预测的方法。它通过学习输入数据的特征和模式,可以对未知数据进行预测和分类。以下是一些常见的深度学习数据预测模型: 1. 多层感知机(Multilayer Perceptron, MLP):MLP是最基本的深度学习模型,由多个全连接层组成。每个神经元接收上一层的输出,并通过激活函数进行非线性变换。MLP适用于处理结构化数据,如表格数据。 2. 卷积神经网络(Convolutional Neural Network, CNN):CNN主要用于处理图像和视频数据。它通过卷积层、池化层和全连接层来提取图像中的特征,并进行分类或回归预测。CNN在计算机视觉领域取得了很大的成功。 3. 循环神经网络(Recurrent Neural Network, RNN):RNN主要用于处理序列数据,如文本、语音等。它通过循环连接来处理序列中的时序信息,并具有记忆能力。长短期记忆网络(Long Short-Term Memory, LSTM)和门控循环单元(Gated Recurrent Unit, GRU)是常见的RNN变体。 4. 长短期记忆网络(Long Short-Term Memory, LSTM):LSTM是一种特殊的RNN结构,通过引入门控机制来解决传统RNN中的梯度消失和梯度爆炸问题。它在处理长序列和长期依赖关系时表现出色。 5. 生成对抗网络(Generative Adversarial Network, GAN):GAN由生成器和判别器组成,通过对抗训练的方式来生成逼真的数据样本。它在图像生成、图像修复等任务中具有很高的应用价值。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值