刘鹏报告：人工智能引领未来

最新推荐文章于 2024-04-26 16:33:01 发布

深度学习世界

最新推荐文章于 2024-04-26 16:33:01 发布

阅读量822

点赞数

文章标签：人工智能

原文链接：https://mp.weixin.qq.com/s?__biz=MzI4MDMwMDM3NA==&mid=2247490305&idx=2&sn=e1072a6294d694764bfa9ce1a84b3389&chksm=ebbbc538dccc4c2ecbe160edfab3e41874069080f25f71874a3368b8556b138def1ded15ae48&scene=126&sessionid=0

版权

2月16日，在“第七届挖贝北交所·新三板领军企业年会暨挖贝金股奖颁奖盛典”上，刘鹏教授作主题演讲——《人工智能引领未来》，深度剖析了人工智能发展的三次飞跃，为现场嘉宾带来了一场科技盛宴。

刘鹏教授（配图来自挖贝网wabei.cn）

以下为刘鹏教授演讲实录：

非常荣幸有这样一个机会给大家做分享，我在这里主要讲人工智能在最近这十年的三次大飞跃，第一次飞跃是2012年图像识别的飞跃，主要来自于神经网络技术的突破，第二次飞跃是AlphaGo在2016年挑战围棋世界冠军李世石，第三次飞跃就是最近特别火的ChatGPT，从去年11月份发布至今，ChatGPT已经引起了全世界的震动。

首先来看看第一次飞跃，在美国有一个比赛叫ImageNet，这个比赛是由李飞飞组织数据来筹办的，从2010年开始建立数据库，数据库里放了128万张经过标注的数据。比如说里面有一辆车则将其标注为车辆，有人则标注为人，有植物则标注为植物。其中有10万张数据是用于识别、测试。

在2012年，突然出来了一个新的算法，这个算法叫AlexNet，它的准确度一下子从原来的百分之七十多提升到百分之八十多，从那以后这种技术大行其道，让神经网络的层数越来越高。在2012年时，AlexNet用了八层神经网络，后来到2014年，谷歌的Net用了22层，慢慢发展到152层，神经网络的准确度也越来越高。到了2015年，ResNet的错误率只有3.57%，而人类的错误率是5.1%，通过机器判断图片的准确度已经超越人类。

提出这个理论的是加拿大多伦多大学的教授Hinton，他和他的学生创造了这个理论，这个学生叫Alex，Hinton和另外两位人工智能专家都获得了图灵奖，而图灵奖是计算机界的诺贝尔奖。从那以后，机器视觉一发不可收拾，比如说左上角这个图，可以让计算机去判断这个图片里到底有什么东西，或者是让计算机用语言去描述这张图片里发生了什么情况，里面有什么对象，或者是把图片里每个对象扣出来等等。这些应用层出不穷，由于这个技术的突破也产生了中国的人工智能四小龙，现在他们大部分都上市了，他们都是机器视觉领域里的佼佼者，也发表了大量论文，参加了很多国际比赛并拿了很多奖，所以他们把这些技术做得越来越专、越来越精。在这方面的应用，中国还是比较前沿的。

我们也做了一些工作，我们设计了一个算法，这个算法叫视频DNA，可以把一个人走过去的数据做三维叠加，做成体现时间和空间分辨率的数据立方体，而这个数据立方体反映了这个人潜在几乎所有我们能看到的特征，而传统的技术是用特征提取的方法提取这个人的身高、重心、频率等数据的。我认为传统的方法不可行，因为我们在100个人里把1个人特征挑出来是很容易的，但是如果你想要在一千万人把他挑出来，跟他特征相似的人就特别多，所以这个人的特征数据容易被淹没在数据海洋里，而视频DNA这种方法就能够提取出来，而这大概是我们十年前做的技术。

我们还会去解决其他的问题，比如说在高速公路上收费，现在都是用ETC或者取卡，为什么不能够直接通过车牌识别就收费？比如说在海南，高速公路是没有收费站的，是把所有的费用计在油费里，所以海南加油要比内地贵一些。最近这种计费方式遇到一个很大的难题，因为现在越来越多的新能源车是不加油的，如果计费的话，我们必须追踪每辆车，知道每辆车到底跑了多少高速公路。

所以这个问题怎么解决？高速公路上识别每辆车其实并不难，因为停车场早就是这样做的，自动识别、自动收费。但是，在高速公路上往往会遇到各种情况，比如在拍照的时候太阳光反光，车牌被太阳光光线遮挡了，有的车牌太脏了、太旧了、变形了、太暗了、速度太快了、下雨了、下雪了等等，这些情况我们怎么把这些车牌识别出来呢？

对于这些问题，江苏交通控股就组织了一个比赛，请了很多人工智能公司参加，让大家从2017年10月份开始，对着一条真实的高速公路进行车牌识别，比较大家识别的结果，这个结果是随时随地实时比对的，如果有三家以上的识别结果是相同的，说明这三家肯定是对的，因为大家不会错的一样，其他的人都是错的，如果大家都不统一，则人工检查到底谁是对的。

经过这么多年，这个比赛已经识别了上百亿张的车牌，在这个比赛里，我们在各种自然条件下始终保持了第一名的水平。

我们准确地把每一辆车识别出来，然后把速度再加一倍，这样就能够非常准确地把现实世界的状态投射到信息空间，这也是未来元宇宙所需要的，就是把每个人、每辆车真实世界的状态投射到信息空间，由人工智能去管理，这是很重要的一件事。

我们用这样的算法也可以去解决别的问题，比如癌症。癌症有个特点，如果病人发现早，就比较容易治，如果发现晚，基本上预后就很差。如果想要让病人尽早地得到治疗，就需要尽早发现症状。但是棘手的是，癌症初期，病人的症状往往不明显，也就是说，即使我们拍了一个片子，医生也不确定这个病人到底是不是癌症。

针对这个问题，我们和南京鼓楼医院合作做了前列腺癌的识别，识别准确率做到了99.38%，在国际上也引起了比较大的反响。

机器视觉也可以用在工业里。在工业领域，我们一般是解决目前为止没有人能解决的问题，如果别人能解决，我们就不再接触了。比如在汽车制造的过程中，99%的环境都是机器人完成，但还有1%是人在做，这1%就是要检查车辆的每个件表面有没有瑕疵。在这一方面，现在很多还是人工检测，为什么不让机器完成？因为机器速度和精度达不到人的要求。目前汽车制造领域还在大量地使用人工，包括我们现在知道的一些知名车企，也是如此，但人工检测经常会有遗漏，整车出品的时候没发现，结果后来又返工，造成整个成本的浪费，所以我们就设计了一个系统，对汽车进行快速建模，从而通过人工智能算法检查它表面的瑕疵。

比如上面写的字的高度，通过我们的算法就可以准确地找出瑕疵，然后用机械手把这种缺陷挑出来。

我们处理了很多类似的情况，比如发动机里边很反光，非常亮，它的缺陷能不能查出来；或者汽车轮毂是变形的，要正面、反面、侧面、里面全部看清楚，要求也很高。

我们一般是首先看这个行业里有没有人做出来，如果没有我们就会去做，如果它的应用场景很广，就可以把这个部署在产线上。

第一次飞跃，带来了很多效率上的提升，带来了生活质量的改善。

第二次飞跃，AlphaGo。2016年3月9号，李世石和AlphaGo下围棋，这是Google公司子公司DeepMind发起的邀请赛，冠军可以拿到100万美元奖金，当时李世石表情非常开心，他把他女儿也带到了发布会上。

左边这位是哈萨比斯（DeepMind创始人），是一个神童，在4岁时就开始思考两个问题。

1、人的大脑为什么能够思考那么复杂的问题？

2、将来我能不能用计算机模仿人的大脑？

他8岁的时候就开始自学编程，16岁高中毕业的时候就写了第一个软件“主题公园”，后来就去上大学，再后来创办了DeepMind公司。

AlphaGo这个公司非常神奇，做了很多了不起的事情，现在ChatGPT、OpenAI也非常神奇。

这个比赛成绩大家都知道，AlphaGo4：1战胜了李世石。为什么说起这个事？比赛之前，柯洁当时的评价是计算机战胜李世石的可能性不到5%；聂卫平在3月7号讲，若机器和人比赛围棋，我认为机器是一点机会没有的，我对人工智能有特别大的怀疑，你们都是忽悠，围棋，电脑绝对不可能战胜人类；李世石讲，除非出现不可理喻的低级事故，否则我绝不会输，人工智能向人类发起挑战还处于起步阶段。

这些大佬们当时都没有意识到，居然会有一个程序能够打败世界冠军，因为在这个比赛之前，AlphaGo这个软件根本没跟高手下过棋，只跟二段的高手下过棋，现在从二段下完之后直接挑战世界冠军，大家都觉得这是不靠谱的做法，而且AlphaGo整个公司会围棋的就一个人，他把规则告诉程序，让程序自学成才，跟世界冠军挑战，谁也没干过，当时不确定性非常大，所以到比赛中间的时候，大家都傻眼了。

古力是中国的一个九段围棋高手，他说五个九段一起上或许能赢；聂卫平说AlphaGo全局几乎零失误；柯洁说AlphaGo围棋确实是有史以来我见过的强大的对手。

这个比赛真的颠覆了我们人类的想象，可能大部分人都在想下棋输了就输了。1997年，卡斯帕罗夫跟IBM深蓝下国际象棋也输了，输了就输了，下个棋输了就算了，我们就不下棋了。

但这件事没有这么简单，围棋棋盘是19条横线乘以19条竖线，一共是361个交叉点，每个点有三个状态（黑子、白子、或没有子），所以他的计算空间是3的361次方，等于10的171次方，而宇宙里的原子总数只有10的80次方，相当于是宇宙原子总数乘以宇宙原子总数再乘以1000亿倍，这个空间想把它探索到是不可能的。

这么大一个空间，为什么国际象棋在1997年就被探索到了，因为它的格子太少了，所以计算机就取代了，现在格子看着好像不太多，但组合很多，这就是组合爆炸。

AlphaGo是从三个策略解决的。

第一，跟人类学习。学习了人类从五段到九段的高手曾经下过的16万盘棋，一共3000万步，学习各种情况下人类是怎么下棋的。

第二，左右手互搏。把自己做成两个版本互相打，打赢了就升级，打输了就降级淘汰，赢了就不断地打，不断地自我成才。

第三，它对态势有了全局观，看到每个棋面都能评分赢的概率是多少，这种对复杂态势的判断能力只有人类才具有。像我们买股票不就是态势的感知和判断吗？它就是通过大量的学习对态势有了判断的能力。

AlphaGo通过这三种手段就进化了。李世石跟它下的第一盘棋，当时不太认真，也没当回事，结果输了以后很紧张，那天晚上李世石从韩国请了3个厉害的高手陪他下了一晚上，AlphaGo那天晚上下了100万盘棋，第二天李世石再跟AlphaGo下棋的时候，发现它已经不是昨天的它了。

第二年AlphaGo跟柯洁下棋的时候，这个版本叫Alpha Zero，从0开始，就把左边这个向人类学习去掉了，最开始随机下，不断自我迭代，用了72个小时就超越了以前的AlphaGo，所以它不需要向人类学习，而是自学成才。

柯洁跟它下的时候输的很惨，基本上一点赢的机会没有，三盘全输。AlphaGo后来就出现了一些新版本，像Alpha Zero不只是下围棋，干别的事情也行，比如去打游戏，出了一个打游戏版本Alpha Star，把世界上主要游戏都玩了一遍，把冠军打败了。

后来开始干正事，出了一个AlphaFold。我们知道，生命科学家研究生命科学时，非常依赖蛋白质结构知识，人类已知的蛋白质大概是1.8亿种，但人类知道蛋白质结构的只占百分之零点几，以前是怎么知道的呢？像施一公这样的大科学家，他们通过冷冻去观察一个蛋白质，然后把它的结构解剖出来，基本上一个结构要花费一个月时间，而且使用的是千万级别的设备。后来，AlphaFold版本用了两年时间，几乎把人类已知的蛋白质结构全部破解了，而且准确度误差只有一个原子宽度。

现在很多生命科学家都转到AlphaFold上去做研究，这个突破带来了很大的影响，比如以前治疗不了的疾病——艾滋病、癌症、新冠等等，现在攻克就有了希望。可以说，由于AlphaFold的突破，使得生命科学大爆发。

从2016年之后，我们突然发现AlphaGo其实不只是下了个围棋，而是解了一道世界级难题“组合爆炸”，科学里碰到的大部分问题都是这种问题，比如城市堵车，我们希望城市的红绿灯能够智能配置，尽量优化开车速度，让城市尽量减少堵车。

从2017年开始，我们就利用AlphaGo的思维方式去破解城市的交通智能控制难题，折腾了这么多年，数学公式已经写了1000多页。我们跟南京市交管局合作，取得了比较大的一个进步就是构造了一套系统，这套系统比原来AlphaGo碰到的问题要复杂的多，AlphaGo每个十字路口就三个状态，我们每个十字路口是这个方向的车要左转、这个方向的车要直行、那个方向车要右转，每个车道的车数量都不同，它的速度都不一样。

所以，每个十字路口就是一个组合爆炸，我们把一个城市所有不规则的组合爆炸组合在一起，联合去求优化解，这是非常复杂的一个数学问题。所以我们不断地去优化我们的算法，最后优化的结果是我们和交管局一起对这个算法做了验证，当然这个验证不是直接用在现实道路的红绿灯上，在现实中控制和应用还要经过一定的流程，所以我们是通过他们认可的仿真系统，将真实数据输入到仿真系统去看开车速度会提高多少。我们通过交管局周围那些道路数据做了实验，能把开车的速度提高127%，是原来的2倍多。当然这要投入使用还需要很多验证，就像药一样需要小试、终试、大试，所以我们现在还在研发，正在努力在今年在两个城市落下来。

我们也参加了一些比赛，包括参加全国颠覆性技术创新大赛。这是给红绿灯配时，右边是道路的实况，每次配时都在改，道路变得越来越绿，当然这是在仿真系统里看到的成果。我们非常相信只要仿真系统客观反映了真实世界，那真实世界就会是这样运转的。

这是我们开发的这套系统，这套系统是以山东枣庄作为假想的，我们跟交管部门合作在做这件事情。所以我们可以通过这套系统去优化城市的通行情况。

解了这个题之后，我们突然发现别的问题好像也差不多。我们到一个汽车工厂去考察，左边是国产的汽车工厂，我当时就很好奇，为什么机器人这么慢，为什么特斯拉机器人那么快，他们给我解释的原因是机器人都凑在一起干活，机械手很容易互相撞着，所以为了避免它们相互碰撞，就要用节拍来控制每个机器人，这个节拍控制这个机器人干活，那个节拍控制那个机器人干活，不要同时工作。那么为什么特斯拉就不怕撞在一起，他说特斯拉原来也是很慢的，后来2018年特斯拉手上有些订单但是生产跟不上，所以马斯克拿着睡袋到工厂里待了三年，调试了所有机器人的代码，使得机器人能够并行工作而且互相不打架，所以特斯拉的产能就迅猛提升，就变成了世界级的车企。所以他的降价空间比别人快，因为生产效率比别人高。

我当时在想我们就不能做这个吗？我们就用人工智能写了一个软件，这个软件是加在国外的机器人仿真软件里，加上人工智能引擎，加入之后让机器人学会怎么配合，在不管什么复杂的场景情况下，都能够快速让人工智能把软件写好，从而让所有机器人能够协同起来高效工作。

类似的问题还有很多，我们也用这种思路去设计新的材料。最近正在跟一个知名的钢企合作设计新的钢材，和这个有点类似，不过我们突破的速度非常快。我们从早上九点开始设计，下午五点下班的时候系统就做好了，而且验证了我们输出的数据，每输出的一条数据就是一种新的钢材，当然我们还没有来得及去验证这个钢材到底是不是我们想象的那样，但是新的突变时代已经来了。

我现在讲第三次飞跃ChatGPT，人造的各种东西达到1亿用户需要多少时间？电话是75年，手机是16年，网站是7年，推特是5年，苹果的应用商店是2年，Tiktok是9个月，ChatGPT是2个月就达到了1亿用户，据说美国91%的大学生现在都是用ChatGPT帮他写作业。美国纽约的教育局已经禁止ChatGPT进学校，免得学习用它作弊。

比尔盖茨最近有讲话称，ChatGPT作为聊天机器人，可对用户查询做出类似人类的反应，与互联网发明一样重要，人工智能的进步是目前重要的创新，这反映了真实的情况。马斯克讲了这样的话，ChatGPT好得惊人，人类距离强大且危险的人工智能又迈进了一大步。这个东西太惊人了。

ChatGPT是一个问答系统，当我提问它，经过它模型计算后给出一个答案，关键是你想知道的东西它基本都能够给出答案，让它写首诗就写诗，让它写工作汇报就写工作汇报，这是很惊人的。ChatGPT是基于3.5版发展起来的，它的神经元数量是1750亿个，那么这两个月就会发布4.0版，4.0版现在有一个说法大概是100万亿的神经元。新版会支持生成电影、生成视频、生成图片、生成音频、模仿人类等等。这是很恐怖的进步，它能做我们感官类的、思维类的各种工作。

它是怎么做到的？编码和解码，我们有一张图片，想让人工智能理解这个图片，人工智能看到这张图片之后，经过神经网络的编码，最后编成空间的向量，向量再去解码，希望解出原来的图片。所以这是一种无监督的学习，把互联网上的数据喂进去，把每张图、每段文字从这里面输进去，再解出来发现不一样。我们再去调神经网络，让它尽量一样，所以它不断地做这种循环，4.0是把人类互联网上的数据都拿去学了一遍。现在发现它再往上提升就比较难了，因为没有数据了。

除了ChatGPT，还有很多类似的系统，这是一个开源软件Stable Diffusion，这个是我们做的实验，输入一句英语，比如说“天空中的花园”，它就生成了相应的图片。这是这次元宵节做的图片，中国的元宵节有很多灯笼，这是Stable Diffusion生成的图片。这是FaceBooK做的，它现在已经能够用这样的类似技术去生成视频，这个描述是一只泰迪熊在画自画像，人工智能自动生成了视频。

所以大家可以想象五年之后，可能演员这个职业就没有了，导演也没有了，剧作家也没有了，因为所有写剧本的是人工智能，拍电影的也是人工智能，人工智能自己想电影场景，设计电影的逻辑都会，它把电影制造出来，最后它还掌握人的需求，它知道这个电影会有哪些人看，根据人类的大数据去设计这个电影。而人类拍的电影可能成本又高，效率又低，质量还不如它。

我们会发现很多行业都会面临这样的竞争，就好像车牌能识别，那么地下车库的收费员就没有了；当我们用ETC的时候，会发现高速公路收费员就减少了很多，这是必然的结果；当自动化生产用机器人了，当机器人都能扫地、送餐、送快递了，会发现很多工人现在都不需要在岗位上了；甚至现在大家都认为ChatGPT比他的老师讲课好很多，而且它给你讲的东西非常清楚，所以大家觉得老师可能也不是特别重要了。所以，现在已经到了人工智能爆发的拐点。

DALL-E，也是Open AI做的一个工具，这个图提示是中文，“碗汤是另外一个次元的入口”，就是一碗汤是一个次元的入口。生成出来的图片比我们人类的想象力要高很多，这是一个泰迪熊在时代广场滑滑板等等。

这是Google做的Imagen，这是一个报喜鸟，它站在一篮子的马卡龙上面，通过它的脚指头放的位置可以发现，它已经充分理解了这个脚指头就应该是这样的。

所以，你如果问ChatGPT秦始皇用的是哪个品牌的手机，它说秦始皇那时候连电都没有，手机都没有，他不会用手机，它知道潜在的逻辑，以及这里面的深层含义。

这里面我们也做了很多研发，和其他硬件研发企业一起设计了向量计算一体机。因为我们发现所有人工智能计算，包括人脸识别、自然语言理解，最后卡脖子的地方是卡在向量计算上，比如人脸是把它转换成一个向量做向量比对，我们自然语言理解也是把它转化成一个向量并做向量比对，所以现在ChatGPT已经到了一个可以通过向量的关系去推的阶段了，但也幸好，它还不能理解这到底是什么含义，我们觉得，下一个比ChatGPT更强的东西，是一定要明白我们人说的一句话到底是什么意思，这个意思就是空间的哪个向量的位置，而这个位置则需要大量的计算。

所以，这个机器就是为这个准备的，已经做了很多年了，这里面有60颗处理器，算力是一秒钟做7亿次向量计算，比我们用GPU卡强了40倍。

用这个就可以理解自然语言，理解人说的每句话是什么意思，基于这个我们就做了很多自然语言的搜索引擎，也基于它正在研发一些能够理解语义的人工智能新引擎。当然，这还需要时间，如果有足够的资源，我们有可能会把这个做出来，但是首先要解决的问题是，这么强大的具有学习所有知识的能力，并且能明白所有万物道理的人工智能，我们是绝对不允许直接把它放到互联网上去危害人类的。

所以，首先要做的是保护人类的利益，保护人类不受侵犯，同时也能够保护地球的安全，这是下一步我们要做的很重要的一件事。

我的汇报就是这些，谢谢！

深度学习世界

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
刘鹏报告：人工智能引领未来

2月16日，在“第七届挖贝北交所·新三板领军企业年会暨挖贝金股奖颁奖盛典”上，刘鹏教授作主题演讲——《人工智能引领未来》，深度剖析了人工智能发展的三次飞跃，为现场嘉宾带来了一场科技盛宴。刘鹏教授（配图来自挖贝网wabei.cn）以下为刘鹏教授演讲实录：非常荣幸有这样一个机会给大家做分享，我在这里主要讲人工智能在最近这十年的三次大飞跃，第一次飞跃是2012年图像识别的飞跃，主要来自于神经网络技术的突...
复制链接

扫一扫