AI、BD四人谈

前些天,同事问我人工智能(AI)与大数据(Big Data),想了一下,不太好问答。

自己思考了一下,写了一部分,也邀请朋友们畅所欲言,于是总结成文。不一定对,欢迎大家各抒己见,在文章末尾留言,提出您的看法和观点。

一、陈雪菲

陈雪菲,上海市计算机学会存储专委会副主任,创新科技术有限公司副总工程师,硕士毕业于浙江大学,是IT和存储行业老兵,从代码到架构到投资,多年的沉淀让他拥有宽广的行业横向视野和敏锐技术前瞻直觉

《AI与大数据辨析之我见》

近日有一些朋友对大数据和AI的关系进行了热烈讨论,由于这几年来概念的演化,一些朋友认为大数据与AI的边界出现了模糊和重叠。例如大数据分析中不知道具体过程,不需要建立直接因果关系,就能得出结论,而AI也是不知道机器学习如何形成逻辑关系,但最终就能给出准确判断结论;再有计算机视觉方面的AI需要大量的数据集训练“喂养”,这和大数据处理似乎等同,凡此种种,让AI和大数据看上去有非常类似之处。

 

但我本人却始终认为AI(人工智能)和大数据是不同层级的东西,并不适合放在一个层面进行对比讨论。

 

  1. AI是什么已经有明确定义,随处可查,但这次想从不同角度看一看。

 

柯林斯词典对AI的定义如下:Artificial intelligence is a type of computer technology which is concerned with making machines work in an intelligent way, similar to the way that the human mind works.目前词典的定义里AI仍然是一种计算机技术,它能让机器以智慧的方式工作,类似于人类的思维方式。

 

而好莱坞大导演斯皮尔伯格早在2001年的电影里对AI的刻画就已经是比较准确和容易理解了,AI它具象成了一个超级聪明的孩子,还在不断变得更加聪明。电影抓住了关键点,AI的核心就是智能,智能的本质的是具有学习能力,好的AI智力就高,差的AI智力就低。

 

理想的AI是拥有超强的学习能力,只要找到合适的学习方法,AI能够在任何一个领域达到并且超过人类的上限,如果人类通过研究能找到最好的AI,它拥有前所未有的智力高度,因此也就拥有突破人类智力上限的可能性。

 

聪明人干啥都厉害,所以在不同行业的AI应用相当于带了天才儿童去学不同领域的知识,希望他在这个领域跟上人类的专家水平甚至超过人类顶尖水平,有的领域成功了比如下围棋和人脸识别,有的领域接近人类水平比如自动驾驶,有的领域还无法达到人类水平比如医疗。

 

(补充一点,AI技术的理想目标是要创造一个无比强大的通用智能出现,无论是以硬件或者软件的载体。如此强大的智能能做什么?前几个月在上海举办的世界AI大会上,卡内基梅隆大学的教授Raj Reddy提出的观点就很有意思,可以让AI去发现新的知识,转身教给人类,让人类也变得更加聪明,这就变成良性循环了。)

 

2. 而在我看来,在人类的科技树上,大数据的层级就低多了,只是一种增强的数据处理技术和一系列工具而已。大数据的方法本质就是统计学的升级版应用,虽然数据量和种类增加了,但是大框架还是统计学,核心诉求就是从一堆数据里找出相关性,正相关负相关线性相关,定性或者定量描述而已。前些年所有安在大数据上面的神奇描述词汇都可以放在统计学上,“为领导决策提供参照,为领导赋能”,统计局一直也都在干这个,“强大的数据分析能力,广泛调研,全面汇总”,原来的统计报告也这么写。大数据不产生直接价值,都是辅助决策,间接作用而已。

 

所以从我来看,大数据和AI完全不在一个层面上,不是同等的级别,有人说大数据是AI的基础,我认为这种说法并不准确,既不充分也不必要。AI有不止一种技术路线,除了目前火热的基于统计学方法的机器学习,早年第二次AI热潮时是走的专家系统路线,它是把人类过往多年积累的经验方法总结成的领域知识进行自动化,以行业知识图谱+规则引擎,来做分析、分类、回归,虽然实现的效果不如当下,但也在国际象棋上战胜了人类。这一成就的获得并不依赖于近年才兴起的大数据工具,所以大数据并非必要条件。同样有些典型的机器学习场景也不需要超大量的数据,训练的过程的确出现大量学习过程,但数据量不大,也没有很多种类。比如AI学习玩小游戏,打砖块,它自己练了一个晚上就从小白成高手了,深度神经网络做的自我修正和提高过程中,也不需要海量数据的输入和hadoop平台处理。

二、梁新刚

梁新刚,深圳市爱智慧科技创始人。北京大学软件工程硕士。曾任职华为七年,遍历国内海外市场,后离职创业。新三板公司百米生活前CEO。西安交大研究生院校外导师/深圳深龙英才。第五届深圳创业先锋人物。2016年二次创业,投身人工智能。

《大数据和人工智能的区别或异同》

 

2016年,我二次创业,All in人工智能。爱智慧科技的第一张名片的背面,印着我们的slogan:“机器智能化繁为简”。

为什么我没有用更为流行的“人工智能”?这里面就含有关于“人工智能 vs. 机器智能”、白盒(知识方法)vs. 黑盒(多层神经网络算法)的思辨。

 

舍恩伯格在《大数据时代》的阐述了三个原则:全样而非抽样,效率而非精确,相关而非因果。

我认为以上三个原则,作为对大数据的概况,流于形式了。讲的是结果,是皮相。

判别大数据的关键在于:这些数据,是否能够由人类当前已经具备的知识方法进行“驾驭”。一个数据序列,只要能够基于人类知识/规则加以生成(或拟合),就不算是大数据。例如圆周率的不同精度的近似值,例如斐波那契数列,即便有无限多个,也不算大数据。

换言之,当我们人类的知识和规则无法生成、无法概括规律、也无法进行拟合的大量数据样本,我们不得不求助于深度神经网络(deep learning)帮助我们分析(分类、回归),对于深度学习的内在机理,我们目前还无法透彻地理解,因此是个“黑盒子”机理。对此,我表示敬畏,称其为“机器智能”。

 

由此,咱们通常所谓的“人工智能”,就可以分为两个路径:知识自动化 vs 神经网络+大数据

 

  1. 知识自动化,也称为“认知智能”,通常是把人类可以显性表达的知识、方法论、规则进行算法化、自动化。从AI早期的几何题的机器证明、到专家系统,都是这个路子。

  2. 神经网络+大数据,是把人类无能力处理的大数据(通常是视觉、听觉等传感器测量到的),通过多层神经网络,进行黑盒化处理。人类既然做不好,那就只好拜托机器智能加以优化。在ImageNet这样的大规模图像数据集上,机器智能已经超越了人类的最佳识别率。

 

人工智能的核心是“知识自动化”。AI的三个赛道,视觉感知是我们的耳目;认知是动脑子分析、预测、辅助决策;想明白了就要做动作,就是机器人。AI=感受+认知+Robot。在这个过程中,大数据主要支撑了感受。认知主要是对知识的自动化。而Robot,主要采用增强学习加以演进(也就是“撞了南墙知道回头”)

 

2006年以来,AI获得复兴,迎来第三次浪潮,起因于多层神经网络。这是“黑盒化”的方法,需要大量经标注的数据。但是,我们不能因此就忘却了AI的第二波浪潮的核心,是“专家系统”。这就对应于叶毓睿的问题6:存在着不需要大数据的AI流派,就是专家系统。它是把人类过往千年积累的经验方法总结成的领域知识进行自动化,以行业知识图谱+规则引擎,来做分析、分类、回归。

 

专家系统(白盒)势单力薄,所以在上世纪落潮;现在有了大数据+多层神经网络算法(黑盒)的突破,两相结合,能做得更好。爱智慧科技已经在多个行业有了成功案例。例如,对于室内设计方案的自动生成,我们就结合了领域知识(室内设计的方法论、规则)+大数据(40万套已有的设计方案),能在20秒内,对于拍摄的户型图,生成由业主指定装修风格的方案。

三、颜林林

颜林林,北大生物信息博士,拥有二十多年编程经验,目前从事肿瘤基因检测行业,主要针对高通量测序等技术及其临床应用,做数据分析与相关算法研发工作。

虽然做了多年的数据分析工作,经手的数据通常也按GB或TB计算,但我一直不敢宣称自己做“大数据”。因为在我理解中,“大数据”的“大”,并非数量“大”,而是方面“全”,且彼此有机联系,牵一发而动全部。然而多“全”算够全呢?似乎也缺乏公认标准。虽然我现在在做多组学研究,号称把基因组(即高通量DNA数据)、转录组(即高通量RNA数据)、蛋白组(即高通量蛋白质数据)、表观组(即高通量核酸修饰数据)、表型组(即多维度临床表型数据)结合起来分析,但实际在建模过程中,也都还是只有针对性地处理一个又一个的简单目标,以确保模型的可解释性和预测效能。也因此,似乎还是“不够全”,不够系统般完备,不像是“大数据”。从某种意义来看,这倒是有点像人工智能界流传的那句调侃“某件事一旦用人工智能实现出来,就不再被认为是人工智能了”。数据分析的本质是统计,统计的模型往往都并不复杂,采用的数据也需要清洗和简化。如果脱离了统计基础,单纯堆叠大量不同类型的数据和模型,其实并不见得能够真正获取有效的信息和知识,去做出合理的决策指导。按这个思路,我个人是支持“大数据只是一个伪概念”的说法的。

再说到人工智能,目前的进展,更像是人脑及其思维方式的仿生学的具现化结果。像是帮助人类个体去横向扩展了容量和运算能力,加速过去难以实现或难以快速完成的任务。这种模仿,可以是硬编码的规则,也可以是依靠数据自动训练和完善的模型,其实后者的结果,依然可以看作是规则,用参数和运算结构硬编码出来的规则。说到这里,算是一定程度“偏执”地破除了人工智能的“迷信”,回归到了其与古老专家系统并无本质差别的层面。当然,这只是我一家之言,并不见得正确。当今的人工智能领域,得益于大量数据的产出、传输、存储和处理,以及相应底层设施的支持能力大幅度提升,这是人工智能与大数据之间的联系。除此之外,我觉得,大数据和人工智能只不过是两个不同层面的概念,其实并没有“异同”可供比较。

四、叶毓睿

我在2019年11月19日的朋友圈曾写道:

1、大数据其实是在线数据。

我比较认同阿里云王坚的观点,大数据其实是在线数据。我个人认为,在线并不意味着一定要在公有云上,也可以在私有云上,核心是需要访问时(用于决策分析),数据能拿到。这样,磁带这类的数据不能算在内。

2、相关、全样和高效。

我也欣赏舍恩伯格的这本《大数据时代》的三个原则:

全样而非抽样,效率而非精确,相关而非因果

3、大数据的目的。

我个人认为:无论结构化还是非结构化,通过大量不同的(x,y)这些原始数据,得到x和y的相关性(注意不是因果关系),继而通过x’,推测出y’。

目的是为领导提供决策和分析的依据

4、人工智能的目的。

顾名思义,就是通过机器的自动化实现原本需要人类来做的事情。训练(机器学习和深度学习)、推理 只是人工智能整个流程之重要一环,目的是自动化,例如用人脸识别去抓捕罪犯,自动触发信息系统下达拦截人的指令或者提示信息;再如自动驾驶,获取交通地面信息,经过数据分析后自动决定行驶路线,……

当x=x'时,可以推测出y',系统事先设置好触发条件,也~=y',则自动执行z'。

实际上,从y' 到 z' 也有很多的工作量。

有朋友(李总)提出的大数据是输入,人工智能是输出的这个观点,我比较认同。

5、另外一个角度思考。

大数据只完成了第一阶段,为领导赋能;

人工智能在大数据基础上,还完成了第二阶段,自动化(包括头条的推荐、汽车的自动驾驶),越往后发展,越有机会普惠。为更多的人(例如普通老百姓)赋能,如同云计算降低了大多数人使用算力的门槛。注意,普惠和平等,不是指出身的平等而是机会的平等,普通老百姓中,那些聪明、勤奋、进取、创新的人有机会借助这些赋能,突破阶层的束缚,脱颖而出。这是合理的,因为人的禀赋是不一样的,应该人尽其才。

6、问题。

之前的阐述有个假设,就是人工智能需要用到大数据的输出结果。

如果我们把结构化数据的数据分析和数据挖掘也算在大数据的范畴之内的话,有没有反例?也就是说,是否存在着,哪一种人工智能,不需要大数据(含数据分析、数据挖掘)的?

这几天看到一些信息,再补充几句:

7、吴恩达曾说过,AI是新的电力,我比较认同。我前面的第5点,为老百姓赋能也是类似的意思;成功的案例还有 云计算。

8、梁新刚的分享里,提及 “存在着不需要大数据的AI流派,就是专家系统”,一定程度上回答了我的问题(也即第6点)。

欢迎您在文章末尾留言,分享您的观点。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值