【杂谈】关于数据和模型,初学者极容易忽视的两个问题!

6b8d3f1a9b2653bad242a8e9a750e96f.png

说起深度学习与CNN,想必大家很熟悉;说起计算机视觉中的目标检测等各个方向,相比大家平时也接触过不少东西了;不过有两个小的方向,虽然相关的论文、项目、甚至研究方法都不多,却是做研究与实际项目落地中非常重要的技术,那就是对数据使用方法的掌握与模型的理解,这是容易被大家忽视的问题,下面我们简单说道说道。

关于数据你应该知道

大数据本来就是一个专门的学科,不过我们这里说的不是专指大数据,而是指在深度学习项目中数据的使用,至少有好几个方向有非常多的内容值得掌握。

数据的获取

数据是深度学习系统的粮食,当前的大部分工业落地模型,都依赖于大量数据进行学习,所以获取是第一步!如果没有超越百万级图片数量的ImageNet数据集的整理提出,深度学习计算机视觉算法的落地进程肯定会被推迟!

e336aa35ccc18839e7f563061a905fbc.png

那ImageNet数据集从何而来!靠的就是数据爬虫和在线的众筹标注平台!其实大部分图片开源数据集都是依靠数据爬虫获取然后进行整理的,所以爬虫是你必须掌握的。

数据的整理与标注

随着各类基础算法的成熟,决定模型能否上线的关键,很大程度上取决于数据的质量以及数据是否被正确地使用!你和大厂差的往往并不是算法的先进性,而是数据的多少与使用方法!拿到数据之后怎么用,绝对是一个必须要好好思考的问题。举一个简单的例子,数据的来源是很广泛的,不同类型数据的难度不一样,我们在公开数据集中经常会看到hard,medium,easy这样的分级,而在我们的项目中,也是经常需要这样去进行分级的,不同类型的数据其实不能简单地就混在一起使用,这个问题你有好好想过吗?有真的去做了吗?

166d9a7be72c3a503faf70816bdf3d8d.png

没有算法能取得百分之百的精度,我们往往是用简单的数据先进行方案认证,中等难度的数据精度作为上线标准,而高难度的数据作为后续的技术攻关,不能因为无法解决一些超级难的案例而否定模型,数据的整理与使用绝对是非常需要工程经验的。

另外一方面,数据的标注虽然不算是高技术壁垒的活儿,但如何提高效率,显然也是值得重视的,相关的行业,可并不小!国内有很多的数据标注基地和公司,比如百度山西数据标注基地。

7d8f118d226db47c3110e37041482c7f.png

自动化的标注工具与平台,也是一个非常重要的小方向,像NVIDIA和百度这样的大公司,就从事相关的研究。

588207f288eb76c7a2761ca8d97e36c1.gif

数据增强使用

数据增强方法的重要性,我想已经无须再做过多的介绍了,因为做过算法落地、打过竞赛的朋友一定深有体会!同样的模型,因为数据使用方法的不同,精度可能天差地别;数据增强做得好,100张图片也能浪;数据增强做不好,模型妥妥的过拟合;数据增强没选对方法,模型上线肯定出问题。

dfe1717459327dcb501eb9816e99c863.png

数据增强方法众多,从有监督到无监督,从单样本到多样本,从基于规则到自动化,是一个需要系统性掌握的领域。

再回过头来看,你对数据的掌握,有多么熟练呢,平时做相关的工作时,花了多少心思重视数据相关的使用技巧呢?

如果觉得有所缺失,我们平台推出了《深度学习之数据使用》的课程,主讲老师为言有三,目标是帮助大家掌握好深度学习中的数据使用,课程价格只有99,顶一顿火锅。

本课程内容包括数据的获取,数据的整理,数据的标注,数据增强,数据的分析等领域,覆盖了深度学习中数据使用的各个方向,大纲如下:

1bf3d5411706a1c18990aad004038ad1.png

详细的课程内容介绍,请点击下图跳至阅读:

21707beaafe852d65c791e7149ad3f93.png

关于理解模型你应该知道

深度学习模型使用的门槛虽然低,但模型参数多,网络结构复杂,模型结构的设计以及训练过程中超参数的调试,都非常依赖于经验。结果不好,是数据的问题还是模型的问题,往往分析起来比较困难。如果是数据问题,那到底是什么问题?如果只凭经验,没有很科学的分析工具,仍然会有盲人摸象的感觉。

提起模型,我们不能仅仅知道模型的名字和大小,那太粗浅了,先了解它,才能用好它!对模型进行相关的分析是非常重要的,至少有几个方向需要掌握。

可视化分析

模型结构的可视化是基本操作、我们不可能只依靠代码去想象模型的拓扑结构,各个网络层的连接方式与参数细节配置,需要能够随时进行可视化,这样方便我们了解模型调整时的变化。

f29b70e043a0ab2d4731c144433375fb.png

模型的权重以及所学习到的特征,对于了解模型的内在是必备技术。这样我们就能知道模型到底学习到了什么特征,是不是我们期望的特征,从而不再仅仅将模型当作是一个黑盒子来使用。

080435bd22adb033e64be46828ff196f.png

复杂度分析

深度学习模型很复杂,那到底有多复杂,用什么指标来衡量,怎么计算,有什么工具可以使用呢?

d3c3cbe7c6ae6982a53f7a1d5b9d1b01.png

怎么更精确地统计模型的速度,怎么分析模型的速度瓶颈在哪个地方从而进行后续的优化,对优化模型来说,这都是需要考虑的问题!这些你存储了多少相关的技能呢?

如果觉得有所缺失,我们平台推出了《深度学习之模型分析》的课程,主讲老师为言有三,目标是帮助大家掌握好深度学习模型分析的常用方法。课程价格只有99,顶一顿火锅。

本课程包括模型分析的几个重要方向的理论与实践(基于Pytorch),大纲如下:

4f137b54d21eb24c213d61a4758d55d1.png

详细的课程内容介绍,请点击下图跳至阅读:

fa4392f500eba8d897bda01f29e3a08e.png

尾记

万丈高楼平地起,虽然现在的信息非常繁杂,我们平时在工作和学习过程中面临着各种快速出结果的KPI,但是磨刀不误砍柴工,只有基础扎实,才能游刃有余!我们一直强调大家要系统性地掌握好知识,而不是练快刀,因为走捷径式的领先,终将后继乏力!

以上的两门课程目前加起来一共6个多小时,属于我们平台最基础最便宜的课程,在目前的每一个CV季划大专栏中都会配置,就是希望大家无论做什么方向,都要掌握好这两项基本技术。

其他相关的基础课程,大家还可以关注CV基础合集,包括《深度学习之图像分类-理论实践篇》,《深度学习之目标检测-理论实践篇》,《深度学习之图像分割-理论实践篇》,共计50余小时,深度和宽度,都足够让大家修炼好内功了。

详细的课程内容介绍,请点击下图跳至阅读:

990f2cf82068365f925822de9e6fec78.png

0383498ab742735ec12117ae0b5cde1c.png

转载文章请后台联系

侵权必究

a5a7077afa20bca65304a9b265d3c06c.gif

1f01a8c336841c3c9ac226c010d4a1d3.png

2cbea9fefb78675c116ce7b02fa9aa78.png

往期精选

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

言有三

三人行必有AI

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值