AI浪潮里的数据_ai 数浪-CSDN博客

本文链接：https://blog.csdn.net/Dark_Scope/article/details/105586417

数据、计算力和算法，是这次AI浪潮的顶梁柱，这个说法从12年至今被无数大佬背书过，平时我们学习的东西主要着眼于算法，常常忽略其他两项。

计算力是我们训练和运行算法的基础平台，从12年开始GPU被广泛地用来进行模型的训练，普通家用的GTX 1080Ti显卡就有相当不错的计算效率，也有大量的研究工作被投入到这个方向，比如很多手机里都有的神经网络计算专用芯片等等；

另一个顶梁柱「数据」，其实对于实际的应用更为重要，在工业界可能绝大多数时间是在和数据而不是算法代码打交道，今天我们就简单总结一下，本次AI浪潮里数据是如何造浪的。

0.小试牛刀的MNIST

MNIST应该是深度学习领域最出名的数据集之一了，理论上任何学习相关算法的同学都会在这个数据集上验证自己学到的CNN等算法，手写数字识别任务也堪称深度学习领域的"Hello World"，同时该数据集也被用来验证其他很多任务的效果，比如图像的生成、图片的降维等等，可谓一数多吃，美味无穷。

这个由Yann Lecun在1998年公开的数据集，包括了60,000张规整的手写数字图片，和10,000张测试图片，用于展示自己提出的LeNet网络的有效性，这成为深度学习历史上避不开的一个里程碑，原始论文里提出的CNN算法也帮助Lecun最终获得图灵奖。

现在看来，这个数据集并不大，但在手写数字这样一个简单的任务上已经非常够用了，灰阶的图像，28*28的大小，对于初学者的电脑简直不要太友好。比较可惜的是，MNIST在帮助Lecun验证CNN效果之后，因为当时计算力和其他数据的不足，没有继续证明自己，直到

1.CV革命的粮草:ImageNet

待图像领域的初学者在MNIST上游刃有余之后，更高的大山已经显露出他的英姿。ImageNet，这个2009年由FeiFei Li领导构建并公开的数据集，以及10年开始每年的ImageNet竞赛(ILSVRC)，成为了那个时候CV领域的圣杯。

最初，传统的计算机视觉算法只能在这个数据集上达到25%的错误率，直到2012年，一个名叫AlexNet的算法横空出世，翻出了尘封已久的CNN神器，将复杂的传统算法斩于马下，达到了16%的错误率；自此，深度学习在CV领域一路绝尘，直到ILSVRC17最后一届比赛，其效果早已远远超过人类的5.1%水准。

原始ImageNet包括三个任务:物体识别定位、物体检测、视频物体识别，在2010年就提供了超过一千万带标签的图片，对应上万个分类目标。上图展示的任务是所谓的物体识别top-5错误率，也就是如果模型判断一张图片的分类的top5里面有正确的label，那么就算作正确。可以看到随着时间的推进，越来越深的网络极大地提高了在这个任务上的效果，这张图就是CV领域深度学习浪潮的缩影。

2.NLP数据征途

2.1 NLP预训练之路

ImageNet耗费大量的精力提供了高质量的标注数据，为CV领域深度学习算法们提供了施展的空间，而在另一个大的研究领域：自然语言理解(NLP)上，数据同样发挥着关键的作用。

和图像领域不同，每个国家的预研都不一样，所以很难构建一个通用的数据集；另一方面，虽然互联网上有这大量的文本数据，但有标签的数据寥寥无几。所以从一开始，深度学习想要在NLP大展拳脚，就必须拿无标签的巨量数据上下功夫。

2013年，Mikolov操刀的word2vec的横空出世，开启了NLP预训练的大幕，迄今为止已经累积了超过15000次引用。

word2vec任务本身其实很简单，就是用文本中某个词周围的词来预测这个测（或者相反），最终将词转化为一个比较小的词向量，应用到其他任务，当时程序一放出来，只要实验了效果，没有不啧啧称赞的。

传统的词表示一般使用one hot的表示方法，即一个长度为词表大小，仅一项为1的稀疏向量，事实上，词向量本质上可以看成是onehot输入神经网络后的第一层网络参数，真正让word2vec如此与众不同的，其实是「预训练」的思想，也就是在大量的无标签数据上，训练一些通用任务（比如LM、MLM），使得词向量蕴含了丰富的基本语义信息，极大地提升在其他任务上的效果。

再往后就是对预训练思想的一步步扩展，这已经是后话了。预训练没有一个特定的数据集，因为最新的论文不断地提出规模越来越大的数据，在由文本构成的互联网上，这样的数据无处不在。

2.2 NLP的英雄榜GLUE

https://gluebenchmark.com/leaderboard (现在已经升级为SuperGLUE)

GLUE是一个综合了多个数据集的任务合集，包括了自然语言推理、情感分析、相似性匹配等基础任务，被认为是通用评判一个模型在自然语言上的理解能力的标准，模型的后起之秀们必须在这个榜单上秀出自己的风采，才会为NLP的江湖所接受，目前在数个数据集算法上都已经超过普通人的标准。

GLUE评分榜的发展历程，就是NLP算法的演进历史:

3.数据的启示

记得大数据刚开始兴起的时候，对于数据的定义区分主要是「结构化数据」和「非结构化数据」，因为绝大多数大数据应用都是在结构化的数据是发光发热；在AI浪潮来临的时候，我们又开始做「有label」和「无label」的区分，因为这是对于「无监督」和「有监督」算法的延伸定义。

无论如何定义，互联网上的数据量增长一直没有停止自己的脚步：据IDC发布《数据时代2025》的报告显示，全球每年产生的数据将从2018年的33ZB增长到175ZB，相当于每天产生491EB的数据。

3.1 数据规模增长的速度对于我们来说有两个启示：

1.越来越多的数据不可能由人来处理，大规模自动化+智能化无可阻挡。

举个例子，之前有尝试给B站投稿视频，但审核时间花了大概十几个小时，像B站这样业务量大幅增加的企业，不可能用人工的方式处理所有的投稿数据，所以在可见的未来，这些平台一定会引入智能化的审核机制，这不仅能提高处理得效率，还能提高审核效果（将人工投入到少量模糊不清的投稿上）。

2.数据的含金量会越来越低，个性化智能分析助理必将普及。

回忆一下我们现在每天会接收到多少数据，特别是抖音和头条这样的信息流推送，这个时代已经很难想象用户自己每天从网络上搜集他感兴趣的新闻和内容。在未来，无论是物联网还是生物计算，我们对于周围环境和自身的数据获取能力看起来是会不断增加的，但其中有价值的信息增长速度远远跟不上总量的变化，一系列帮助我们提纯、自动决策的系统一定会越来越普及：

现在我的手表可以监控我的心率，但一整天心率的走势图蕴含的有价值信息并不多，而能够从中分析出的健康状态 或者 跑步运动建议，才是真正有价值的信息，而能够做到这一点的各种助理，才是未来的killer app.