drive数据集_自监督学习，如何从数据困境中拯救深度学习？

最新推荐文章于 2024-01-21 08:56:50 发布

weixin_39879651

最新推荐文章于 2024-01-21 08:56:50 发布

阅读量288

点赞数

文章标签： drive数据集 imagenet数据集图片尺寸深度学习数据集制作

作者 | Thalles Silva编译 | 翻译官balala

编辑 | 丛末

大规模标注的数据集的出现是深度学习在计算机视觉领域取得巨大成功的关键因素之一。然而监督式学习过于依赖大规模标注数据集，数据集的收集和人工标注需耗费大量的人力成本。自监督模型解决了这一难题，它能够从大规模未标记数据中学习图像特征，而无需使用任何人工标注数据。

每个深度学习实践者都认同的一件事是：深度学习模型是数据低效的。

1、数据低效的深度学习模型

让我们首先考虑计算机视觉中的主流分类任务。以 ImageNet 数据库为例，它包含 1000 个不同类别的130 万张图像，其中的每一个图像都有人工标注的标签。

ImageNet 无疑是现在深度学习复兴的基石之一，这源于 2012 年 Krizhevsky 等人所著的论文《Imagenet Classification with Deep Convolutional Neural Networks》。

在这篇文章中，卷积网络模型首次大幅度超越了当时最先进的模型。它是在所有的对比模型中唯一一个基于卷积神经网络的解决方案。此后，卷积神经网络变得无处不在。

在深度学习之前，研究人员一直认为 ImageNet 挑战非常困难，其主要原因是 ImageNet 数据集突出的变化性。即便只是找到能覆盖 ImageNet 中各种犬类的手工特征就已经很不容易。

然而，通过深度学习，我们很快意识到，大量的数据导致了 ImageNet 如此困难，同时实际上也是使深度学习如此有效的秘诀。

虽然如此，通过多年的深度学习研究，我们知道了大型数据库用于训练精确模型的必要性已成为一个非常重要的问题。并且需要低效的人工标注数据成为一个更大的问题。

而且在当前的深度学习应用中，数据的问题无处不在。以 DeepMind 的 AlphaStar 模型为例。

weixin_39879651

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。