2016 年3 月 AlphaGo 大战李世石以来,人们对人工智能的关注度空前火热,人工智能无疑会带来下一代科技革命,国内外互联网巨头 Google 、微软、亚马逊、百度、腾讯、阿里巴巴等在人工智能领域跑马圈地,各国也将人工智能上升到国家战略,企图抢占下一代技术革命的制高点。
这一波人工智能的兴起源于深度学习算法的突破,深度学习算法突破过去人工提取特征的低效率、深层模型难以训练的局限,大大提高了算法的性能;其次,摩尔定律揭示了计算速度和内存容量能够每十八个月翻一番,之前计算性能上的基础障碍被逐渐克服,进入新时期,云计算、 GPU 的使用为人工智能提供新的可能;互联网、物联网的普及,数据积累呈爆发式积累,为训练算法,实现人工智能提供原料。
1深度学习技术使人工智能达到商用化水平
在深度学习出现之前,机器学习领域的主流是各种浅层学习算法。初期的人工智能研究的重点是以机器学习为代表的统计方法。机器学习是人工智能的一个分支,是目前实现人工智能的一个重要途径。机器学习使机器从数据中自动分析习得规律,再利用规律对未知数据进行预测。机器学习浅层算法如神经网络的反响传播算法( BP 算法)、支撑向量机( SVM )、 Boosting 、 Logistic Regression 等。这些算法的局限性在于对有限样本和计算单元的情况下对复杂函数的表示能力有限,对复杂数据的处理受到制约。
数据来源:公开资料整理
数据来源:公开资料整理
数据来源:公开资料整理
传统的机器学习需要人工提取特征,其思路是,从开始的通过传感器来获取数据,然后经过预处理、特征提取、特征选择、再到推理、预测或者识别,最后一部分也就是机器学习的部分。中间三部分概况起来就是特征表达,是靠人工提取特征。良好的特征表达对最终算法的准确性起到了非常关键的作用。然而手工地选取特征既耗费时间又不能保证选取好,深度学习彻底解决了这个问题。
深度学习突破人工智能算法瓶颈。2016 年,Hinton 等人提出深度学习神经网络,掀起了深度学习的浪潮。“深度”某种意义上是指人工神经网络的层数,旨在建立可以模拟人脑进行分析学习的神经网络,模仿人脑的机制来解释数据,例如,图像、声音和文本。在短短几年内,深度学习颠覆了语音识别、图像分类、文本理解等众多领域的算法设计思路,创造了一种从数据出发,经过一个端到端最后得到结果的新模式。由于深度学习是根据提供给它的大量的实际行为(训练数据集)来自调整规则中的参数,进而调整规则,因此在和训练数据集类似的场景下,可以做出一些很准确的判断。
数据来源:公开资料整理
传统的提取特征的方法是通过大量的工程技术和专业领域知识手工设计特征提取器,因此在处理加工数据时能力有限。深度学习把原始数据通过一系列非线性变换得到更高层次、更加抽象的表达,其复杂的结构、海量的参数设置,能够更好的完成特征提取。对于很多训练任务来说,特征具有天然的结构层次。以图像识别任务为例,图像的初始输入为像素,相邻像素组成线条、线条组成纹理,进一步组图案,图案组成物体的局部,直到形成整个物体的样子。
以计算机视觉为例,深度学习出现之前,基于寻找合适的特征来让机器辨识物体状态的方式几乎代表了计算机视觉的全部。尽管对多层神经网络的探索已经存在,然而实践效果并不好。深度学习出现之后,计算机视觉的主要识别方式发生重大转变,自学习状态成为视觉识别主流。即,机器从海量数据库里自行归纳物体特征,然后按照该特征规律识别物体。图像识别的精准度也得到极大的提升,从 70%+ 提升到 95% 。
数据来源:公开资料整理
2运算力和数据量为人工智能提供引擎
深度学习对于运算速度和数据量提供了新要求。例如斯坦福大学的交通指示牌识别实验,用传统的线性模型,识别准确率为 92% ,所需训练时间为 13s ,而采用深度神经网络模型的识别准确率高达 98.8% ,其所需的训练时间也提升到 783s 。
数据量和算法可以分别比作人工智能的燃料和发动机。数据集的丰富和大规模性对深度学习算法训练尤为重要。实现精准识别的第一步,就是获取海量而优质的应用场景数据。以人脸识别为例,训练该算法模型的图片数据量至少应为百万级别。
数据在深度学习中的应用
数据来源:公开资料整理
2000 年以来,得益于互联网、社交媒体、移动设备和廉价的传感器以及物联网的发展,世界上产生并存储的数据量急剧增加,为通过深度学习的方法来训练各种模型。 IDC 数据显示,从 2011 年起,全球所产生的数据量已达到 ZB级别( 1ZB 约为 10 亿 GB ),海量的数据为深度学习提供源源不断的素材。而数据量对提高算法准确率具有重要的作用,对于人工智能公司而言,数据是最大的壁垒。
数据来源:公开资料整理
数据来源:公开资料整理
3资本持续投入催化产品化进程与产业链的构建
人工智能领域投资额逐年增长,5 年增长12 倍。从 2006 年提出深度学习之后,人工智能才有了实质性的进展。该领域的创业公司逐渐增加, 2011 年开始投资额度飞速增加,据统计,截止到 2016 年 Q2 ,全球人工智能公司已突破 1000 家,跨越 13 个子门类,融资金额高达 48 亿美元。
AI 行业全球投资额
数据来源:公开资料整理
2000-2015 年成立的人工智能公司数量
数据来源:公开资料整理
深度学习、自然语言处理和计算机视觉是创业最火热的领域。 深度学习、自然语言处理和计算机视觉是创业最火热的领域。目前受到关注度最高的 AI 应用有自然语言处理、图像识别的深度学习、计算机视觉、自动驾驶、聊天机器人等。其中研究深度学习应用的公司最多,自然语言处理和计算机视觉的公司其次。同时,深度学习和自然语言处理获得的融资额也是最多的。应用型的深度学习公司融资额最高为 2.1 亿美元,自然语言处理类的公司总融资额为 7000 万美元,位居第二位。
AI公司融资额及相应公司数量
数据来源:公开资料整理
国内获投最多领域为NLP 、机器人和计算机视觉。从 1996 年至今,国内至今仍在运营的人工智能公司有 366 家。通过数据分析可 以看出,计算机视觉、机器人、自然语言处理是创业最热门的领域。 2015-2016 年人工智能领域获投金额在 90 亿人民币左右。可以看出,获投最多的细分领域有自然语言处理、机器人、计算机视觉,均在 10 亿以上人民币的级别。
长按,识别二维码,加关注
获取更多干货!