【杂谈】关于数据和模型，初学者极容易忽视的两个问题！

最新推荐文章于 2024-09-18 20:33:32 发布

言有三

最新推荐文章于 2024-09-18 20:33:32 发布

阅读量1.1k

点赞数

文章标签：算法大数据编程语言 python 计算机视觉

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hacker_long/article/details/122033054

版权

说起深度学习与CNN，想必大家很熟悉；说起计算机视觉中的目标检测等各个方向，相比大家平时也接触过不少东西了；不过有两个小的方向，虽然相关的论文、项目、甚至研究方法都不多，却是做研究与实际项目落地中非常重要的技术，那就是对数据使用方法的掌握与模型的理解，这是容易被大家忽视的问题，下面我们简单说道说道。

关于数据你应该知道

大数据本来就是一个专门的学科，不过我们这里说的不是专指大数据，而是指在深度学习项目中数据的使用，至少有好几个方向有非常多的内容值得掌握。

数据的获取

数据是深度学习系统的粮食，当前的大部分工业落地模型，都依赖于大量数据进行学习，所以获取是第一步！如果没有超越百万级图片数量的ImageNet数据集的整理提出，深度学习计算机视觉算法的落地进程肯定会被推迟！

那ImageNet数据集从何而来！靠的就是数据爬虫和在线的众筹标注平台！其实大部分图片开源数据集都是依靠数据爬虫获取然后进行整理的，所以爬虫是你必须掌握的。

数据的整理与标注

随着各类基础算法的成熟，决定模型能否上线的关键，很大程度上取决于数据的质量以及数据是否被正确地使用！你和大厂差的往往并不是算法的先进性，而是数据的多少与使用方法！拿到数据之后怎么用，绝对是一个必须要好好思考的问题。举一个简单的例子，数据的来源是很广泛的，不同类型数据的难度不一样，我们在公开数据集中经常会看到hard，medium，easy这样的分级，而在我们的项目中，也是经常需要这样去进行分级的，不同类型的数据其实不能简单地就混在一起使用，这个问题你有好好想过吗？有真的去做了吗？

没有算法能取得百分之百的精度，我们往往是用简单的数据先进行方案认证，中等难度的数据精度作为上线标准，而高难度的数据作为后续的技术攻关，不能因为无法解决一些超级难的案例而否定模型，数据的整理与使用绝对是非常需要工程经验的。

另外一方面，数据的标注虽然不算是高技术壁垒的活儿，但如何提高效率，显然也是值得重视的，相关的行业，可并不小！国内有很多的数据标注基地和公司，比如百度山西数据标注基地。

自动化的标注工具与平台，也是一个非常重要的小方向，像NVIDIA和百度这样的大公司，就从事相关的研究。

数据增强使用

数据增强方法的重要性，我想已经无须再做过多的介绍了，因为做过算法落地、打过竞赛的朋友一定深有体会！同样的模型，因为数据使用方法的不同，精度可能天差地别；数据增强做得好，100张图片也能浪；数据增强做不好，模型妥妥的过拟合；数据增强没选对方法，模型上线肯定出问题。

数据增强方法众多，从有监督到无监督，从单样本到多样本，从基于规则到自动化，是一个需要系统性掌握的领域。

再回过头来看，你对数据的掌握，有多么熟练呢，平时做相关的工作时，花了多少心思重视数据相关的使用技巧呢？

如果觉得有所缺失，我们平台推出了《深度学习之数据使用》的课程，主讲老师为言有三，目标是帮助大家掌握好深度学习中的数据使用，课程价格只有99，顶一顿火锅。

本课程内容包括数据的获取，数据的整理，数据的标注，数据增强，数据的分析等领域，覆盖了深度学习中数据使用的各个方向，大纲如下：

详细的课程内容介绍，请点击下图跳至阅读：

关于理解模型你应该知道

深度学习模型使用的门槛虽然低，但模型参数多，网络结构复杂，模型结构的设计以及训练过程中超参数的调试，都非常依赖于经验。结果不好，是数据的问题还是模型的问题，往往分析起来比较困难。如果是数据问题，那到底是什么问题？如果只凭经验，没有很科学的分析工具，仍然会有盲人摸象的感觉。

提起模型，我们不能仅仅知道模型的名字和大小，那太粗浅了，先了解它，才能用好它！对模型进行相关的分析是非常重要的，至少有几个方向需要掌握。

可视化分析

模型结构的可视化是基本操作、我们不可能只依靠代码去想象模型的拓扑结构，各个网络层的连接方式与参数细节配置，需要能够随时进行可视化，这样方便我们了解模型调整时的变化。

模型的权重以及所学习到的特征，对于了解模型的内在是必备技术。这样我们就能知道模型到底学习到了什么特征，是不是我们期望的特征，从而不再仅仅将模型当作是一个黑盒子来使用。

复杂度分析

深度学习模型很复杂，那到底有多复杂，用什么指标来衡量，怎么计算，有什么工具可以使用呢？

怎么更精确地统计模型的速度，怎么分析模型的速度瓶颈在哪个地方从而进行后续的优化，对优化模型来说，这都是需要考虑的问题！这些你存储了多少相关的技能呢？

如果觉得有所缺失，我们平台推出了《深度学习之模型分析》的课程，主讲老师为言有三，目标是帮助大家掌握好深度学习模型分析的常用方法。课程价格只有99，顶一顿火锅。

本课程包括模型分析的几个重要方向的理论与实践（基于Pytorch），大纲如下：

详细的课程内容介绍，请点击下图跳至阅读：

尾记

万丈高楼平地起，虽然现在的信息非常繁杂，我们平时在工作和学习过程中面临着各种快速出结果的KPI，但是磨刀不误砍柴工，只有基础扎实，才能游刃有余！我们一直强调大家要系统性地掌握好知识，而不是练快刀，因为走捷径式的领先，终将后继乏力！

以上的两门课程目前加起来一共6个多小时，属于我们平台最基础最便宜的课程，在目前的每一个CV季划大专栏中都会配置，就是希望大家无论做什么方向，都要掌握好这两项基本技术。

其他相关的基础课程，大家还可以关注CV基础合集，包括《深度学习之图像分类-理论实践篇》，《深度学习之目标检测-理论实践篇》，《深度学习之图像分割-理论实践篇》，共计50余小时，深度和宽度，都足够让大家修炼好内功了。

详细的课程内容介绍，请点击下图跳至阅读：

转载文章请后台联系

侵权必究

往期精选

【视频课】超全深度学习路线图，有三AI所有免费与付费的视频课程内容汇总！

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

言有三 三人行必有AI

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。