演讲实录丨吴甘沙 2020-2025：无人驾驶的应许-CSDN博客

2020-2025：无人驾驶的应许

吴甘沙

驭势科技创始人&CEO

吴甘沙：今年2月份出来创业，我们做的事情就是智能驾驶，我今天的题目跟的内容不完全一致，说实话我的内容有点虚，看到李院士那么认真的在准备新的内容，所以昨天晚上我又加入了一些新的内容，但这些新内容我敢保证以前很少给大家看过。

今天我这个内容就分成两部分：一部分是2020-2025智能驾驶尤其是无人驾驶能够给我们带来什么？第二部分是想分享一下，我们公司为了达到这样一种愿景，在做一些什么样的技术准备。

首先有一个新的判断，大家心里面应该有数，就是2016年的人工智能它是一个什么样级别的大趋势，我们把它跟1996年的互联网以及1976年的PC相提并论。大家知道1976年PC引领了数字化的二十年，而1996年互联网带来了网络化的二十年，今天仍在享受网络化的红利。2016年即将揭开，是波澜壮阔智能化的二十年，这个大的趋势我希望大家都能够放在自己的心里面，这将影响你未来二十年你会做什么？

在未来五到十年这么一个时间尺度上，我们认为在所有的智能产业当中，智能驾驶是非常好的，首先它市场非常大，涉及到三个万亿美金的市场，第一个是市场市场；第二个是出行市场，现在大家都知道优步、滴滴；第三个是自动驾驶直接或间接带来的社会效益，这是在它的报告中给出的数字，一年能够给美国带来1.3万亿美金的社会效益，相当于美国GDP的8%。我们脑海里想一想，还有没有第二个人工智能的技术达到如此之高的社会效益，我是没有想到。这些社会效益怎么来体现呢？我还是拿北京作为一个沙盘推演一下。

北京车很多，600万辆机动车，绝大多数是私家车，车多导致了堵车，堵车又导致了排放、雾霾，又导致了交通事故，车多还导致了停车困难，一辆车90%以上的时间是停着的，而且需要两个停车位，20-30%的土地在北京是用来停车的，这个数字大家听起来觉得触目惊心，房价贵在军功章里也有停车的一半。我们就在想怎么能够通过智能驾驶，尤其是无人驾驶来去打破这样的链条，我们去问大家为什么要买车？根源是在车特别多，而且人驾驶，我们得到两个原因，第一个原因是说要按需出行，但是我打不到车，全北京只有7万辆出租车；第二个原因是工薪阶层整天打车太贵了，所以我们现在在考虑一个愿景，就是在十年以后，北京可能只生下了300万辆车，减少了一半，但是其中有200万辆可能是无人驾驶的出租车，大家初一听到这么一个愿景，可能觉得有点太不靠谱了，怎么有那么多无人驾驶的出租车呢？我请大家回想一下十年以前，2006年苹果还没有出现，移动互联网根本没有，今天享受的O2O各种各样的服务完全都没有，过去的十年技术改变了这么一个世界，未来这十年，我们相信技术的发展是呈加速的态势。当然，这些出租车跟刚才刘院士说的完全自主的出租汽车还不完全一样，我们把它定位成为在城市区域行驶的中低速的无人驾驶汽车，所谓中低速像谷歌是调在40公里的时速以下，这200万辆出租车就能够解决刚才的问题，一个就是我们想打车，车3分钟之内就能来，我们有一个大调度的算法，把这些车分布在城市的各个地方，保证我要车车就能来，保证出租车费能够降到今天的1/3，为什么？今天出租车的人本机构一大块是人力成本、一块是分子钱，一块是油钱。那么无人驾驶把人力成本去掉，份子钱滴滴优步已经挤出去了，油钱是由于我们很多车在空驶，而且新能源每公里的能源成本比今天的化石原料低很多，所以打车会非常便宜，大家改变了消费习惯，就不会去买车，我享受这种按需出行的服务。

那所有很多一环一环的服务就会被打破了，首先一排车可以整整齐齐的在路上开，车的能源效率也会极大的提升，所以逻辑链条的第一环，堵车和排放先去解决了，还有我们的通行效率也会得到极大的提升。大家知道，今天北京的平均时速20公里/小时，就是因为十字路口、交通灯，而未来有了车跟车、车跟路的通讯以后，大家可以感觉通过一个全局的调度算盘，我这车在十字路口根本不用停，我按照某种特定的次序去通行，能够保证不去撞上别人，所以我们的平均时速至少能够提升2-3倍。还有大量的车是以运营为目的的，所以对停车位要求大量的减少，即使需要停车对每一个停车位的要求也减少了，像这样停进去，所以我们我们大量的空间就能够释放出来，大家想象一下，假设每一条道路变得更窄，能够释放出来的空间是巨量的，还有今天我们中国每一天，几十亿小时的时间浪费在了路上，因为我们堵在路上，没办法做任何事情，未来车会改变它的形态，可能会变成智能空间的形态，它是除了家和办公之外的第三种形态。大家想象一下，在这空间里放一个咖啡机，就变成了移动的星巴克；在里面放一块大屏幕，它就变成了移动的影院；在里面放一套办公设备，大就变成了移动的写字楼，它将会极大的改变我们现在的生活工作的状态，我们家可以离单位变得更远，因为我在路上可以工作，我们今天的很多商业地产，写字楼、商业中心、综合体都可以拆散了塞到每一辆车里，事实上把每一条路都变成了移动的商业遗产，这个对于我们未来商业模式的提升，带来的空间是非常大的，因为可能打一个车10块钱，非常便宜，但你在里面喝一杯咖啡就30几块钱，看一场电影50几块钱，所以这也是我们为智能驾驶非常激动的原因，我们认为在未来10-20年之内，所有人或者物的交通相关的产业都会被重新定义，无论你是出租车业、停车业、写字楼、服务业、物流、金融业、保险业。

现在处在什么样的时间点？刚才说的是未来的时间场景，我就拿一个例子来说，这是两条头条新闻，它说是在无人驾驶当中要用到一个设备叫激光雷达，待会汤总会更加详细的介绍。大家可以看到，激光雷达从2007年城市挑战赛当中第一次用到无人驾驶当中，到现在差不多十年的时间，它的价钱没有变化，7500美金一个，但是现在我们已经看到了曙光。在未来的三五年之内会降到500美金以下，甚至是300美金以下，甚至达到100美金，为什么？大家可以去看上面这条，说现在是底特律来去拯救硅谷了，原来靠优步、谷歌那样玩无人驾驶价格是下不来的，现在底特律的定单巨量的涌来，所以现在价格变得便宜。

我们再从用户的角度，这是世界经济论坛BCG对全世界很多城市政策制定者进行调研，88%城市的制定者希望无人驾驶汽车在未来十年当中，在城市里得到商业化，所以这从用户的角度，它又是一个巨大的（挑战）。大家可以看智能驾驶里面包括了很多种不同的形态，刚才李院士已经介绍了一些，比如说2007年第一次出现产品的这样一种驾驶辅助系统，更接近于李院士讲的；2015年特斯拉是大规模的商业化辅助驾驶，2020年大家可以看到有两个重要的新的智能驾驶形态出来，一种叫做高度自动驾驶，从某种程度上就是李院士说的机器在多数情况下驾驶，但是偶尔需要人干预，它跟辅助驾驶的区别在什么地方？辅助驾驶的适用场景是非常简单的，在封闭的结构化上。辅助驾驶现在还是要求人随时把手放在方向盘上，把注意力放在路上，而高度自动驾驶允许驾驶员有5-8秒钟的时间反应，重新会回到决策环节；另外一种像谷歌、优步在说限定场景的无人驾驶，也就是说把驾驶员整个拿掉，但是它是有限定的一些条件，比如说在城市区域最高时速不能高于40公里/小时，真正的全天候、全区域的无人驾驶可能需要30-50年的时间，这个我们只能说听天由命，我们要去看怎么能够更好的去推动技术的更快发展。

现在我们往往把前面这两种叫做自动驾驶，后面这两种叫做无人驾驶，就我们公司驭势而言，我们做了很多辅助方面的工作，如何去改进特斯拉曾经出现过的事故，既然我们叫2020-2025，这些东西我们就略过不说，我们说要达到自动驾驶和无人驾驶需要做什么样的技术准备。

第一，要有一个更好的指引和定位系统，不把它叫做地图，把它指引图，就是在一些关键的地方，它要能够对这个车的行驶做一个指引，比如说我在高速上顺着车道开就行了，不需要指引，但是我上闸道的时候就需要指引，这里面强调三个要点，我们需要融合各种各样的传感器，但是不依赖于任何一个传感器，因为任何一个传感器都可能会失效，这是我们的第一个要求。二是室内室外、地上地下要无缝衔接。三是希望能够众包生成，不像机器人那样去建图和定位。这是在北京房山的研究院，绿色的线是用GPS（RTK）系统，大家可以看到很多地方轨迹是非常精确的，这一点看GPS的信号就发生了很多的跳跃，而且这种跳跃是不规则的，一天的这个时间在这边，换一个时间就到那边了，实际上跟卫星的数目和地面基站的通讯状况是有关系的，如果纯靠GPS（RTK）进行自动驾驶是会有问题，所以要加入惯性导航系统，但是还有个问题，今天的GPS（RTK）可以做到比较便宜了，三千块，年底一千块有可能出来，但是惯性导航系统，尤其是高质量的惯性导航系统非常昂贵，我们通过视觉的方法去实现。大家可以看，这个是摄象头，这是我们算法的监控窗口，这条线就是我们规划路径的一条线，当然当中也有车道线，包括一些障碍物，这是我们的视觉雷达，用双目去判断障碍物。这条线大家可以看到，红色和蓝色线，事实上是代表着用视觉的里程器跟GPS的融合，把整个的路径、轨迹会变得非常的稳定，这是我们第一个要做的。

第二，我们在想GPS（RTK）在地下没有了，室内可能通过WIFI，还是通过UWB，这些东西对于基础设施的依赖还是太大。所以我们觉得基于视觉标志物的指引和定位可能是最方便的，我们就开始做这方面的探讨。视觉标志物有很多种，可以在三维空间里的某些指示牌，人导航经常靠这种东西，也可能是道路地面上的一些特殊的符号，特殊的语意，我们人也是靠这样的语意进行导航，所以我们做了三维空间标志物的识别和匹配，大家可以看下面是一个标志物的匹配，我们实时在开的时候通过计算机系统的算法，在画面当中找到标志物，然后跟地图里面进行匹配，匹配到了我就知道我到底是在什么样的地方，匹配到了我就知道下一步应该往那里走，这是我们做的第二个事情，但这个事情也是有缺点的，在3D空间里面的指示牌非常稀疏，经常可能隔几公里才有，而且有时候会识别不出来，这就会导致在相当长的一段时间里，如果GPS不好用，那你就失去了位置。怎么办了？我们想到了第三个系统，地面是连续的，地面的符号也是可以帮助我们做匹配、做定位的，这是我们摄象头看到的东西做了几何空间的转换，变成从上到下，你就可以看到很多非常有意思的，非常特别的视觉符号，我就可以用视觉的算法把地面贴起来，就像我们拍照用全景模式去拍，下一步我就在这个里面把这些视觉的符号抽取出来，变成适量的指引图，实时在开的时候，根据我开的东西跟这些指引图做一个匹配，我就可以知道我在什么地方，而这样的一个匹配，事实上搜索空间是相当之小的，为什么？我还是有GPS，GPS把我定位在几十米的空间里，在几十米的空间里就可以匹配出来，而像这样地面上有很多阴影的情况下，我也能够做很好的匹配。这是我们在实际车上面运行的情况，这也是我们的摄象头，我们的设想实际就是黑白的，因为它是为算法看的，这是我们实时摄象头看到的视野，背景跟它进行匹配，所以这条绿色的线就是我们具体匹配出来的运行轨迹，大家可以看到车道里面达到了大概10-20厘米的定位技术，这是我们做的这些事情，在指引图在定位上做的一些探讨。

其次是认知的提升。我们也做了一些探索，可能没有李院士说的那么全面，但是大家可以看到我们做了很多方面的尝试。

认知阶段1：从识别不能撞的东西到明白整个世界，全面世界模型。你不能撞的东西数据库毕竟是有限的，不能穷尽，假设我们开到印度去，一头牛出现在路上，它从来没有在你的数据库里，你能不能撞？不能撞，所以需要全面世界模型，这个算法叫象素标签，或者叫做语意分割。大家可以看到，这是我们实时摄象头看到的东西，这是我们做语意分割，紫色的是道路，棕色的是汽车，橙色的是灌木丛等等，这12类能够保证我们实际在运行的时候，能够去做适当的这样一些反应。当然，光路面的检测还不够，这是把整个的路面进一步做了分割，真正这个方向能够行驶的是这一半，或者你看到了公交车道，在这个时间点会把我们可行驶的路面进一步收缩成这么一大块，或者我要左转，我把我可行驶的区域缩成最左面的，再下一步就是对非结构化道路的理解，大家可以看到，这些道路要么车道线非常不清晰，要么被大雪覆盖，要么马路边上马路牙也看不见，这时候就需要把行驶区域找出来，或者把运行的规划轨迹找出来，这是我们要说的认知阶段的第一步。

认知阶段2：从不撞到舒适的驾乘感受。每个人对于安全距离，对于加速、减速、换道的习惯是不一样的，所以我们需要做驾驶员学习，这是我们合伙人做的实验，上车之前车顶上放了三样东西，绕着北京的三环开了一圈，48公里全部是没有人干预的，在这里面非常实际的交通状况，而且是最高时速达到80公里/小时，做了像这样一种自动的换道等等，但是这个实验最重要的目的是要展现，展示当中这三样东西一直在车顶上，这是完全没有（汽片）的，这是中央电视台拍的。

认知阶段3：从确定的经验到自学习。所谓的自学习刚才李院士也说了，能不能在驾驶员指导之下，这套人工系统能够自己获得学习的能力，现在关于自学习最火的技术就是基于深度学习的端到端的学习，你的视频进去，控制信号直接出来，这套技术我们也做了研究，发现它有优势，优势就是自学习，但是缺点在于还不够安全可靠。因为我们传统的这套系统，感知、规划、控制，每一块、每一个阶段都是有多重冗余的，但是一旦变成端到端了很难去控制，我要求有很多数量高质量的样本来给它做训练，而这么一个数量是组合爆炸，所以我们认为完全做端到端，目前来说是不合适的，但是你可以借用里面自学习的那一部分，所以我们希望做的，深度学习从纯感知到规划，到了学习的这部分，但是我们学习的目的是把它沉淀下来成为知识，然后这些知识经验和专家系统会进一步的指导规划和控制，它的整个过程是结合了传统的这些感知规划控制，每步步步为营的做法，同时也加入了端到端深度学习。

认知阶段4：从咏春木人桩到少林18铜人。在一个真实的驾驶路矿上，在这么一个态势下，道路上面的每一个智能体都是活的，而且是人，这时候就像过少林铜人一样，要猜测他人的动机，要预判行为，合理的判定路程。

大家可以看到这个车开的是一顿一顿的，它知道周围有很多人，所以它必须得制动的行驶。我们用了这个过程去预测每一个人他的动机、他的运动轨迹，会不会跟我车的运动轨迹相交，如果不相交我没必要做主动的制动，这样整个车开的非常平酸，做这个算法的研究员也在我们公司里，把这个算法也运用到我们的车上。

这个案例（PPT）跟李院士的仿真有点相似，但是说的是不同的事情，它说的是环岛，在这个环岛里红色的车是自动驾驶或者无人驾驶的车，怎么能够很好的切进去，这时候就需要我去判断每一辆车的动机，判断它的行为，它是激进的还是很慢的车，我在合适的时间点去切进去，它用到了（递归视频）网络或者强化学习的方式，能够做这样的一种认知。

第三要做的就是要运用激光雷达，传统的辅助驾驶大家知道特斯拉，一个前视的摄象头，加上一圈的超声波，我们认为到2020-2025要实现无人驾驶，要实现激光雷达，它对三维的环境能够做非常全新的介入，这我就不多说了。

现在这么几家领先的激光雷达厂商，包括，它也出了好几带的激光雷达，未来三五年如果能够达到100万台的订单，就一定能做到500美金以下，另外他们出了豪言，他们要做120线的激光雷达，意味着它的垂直方向和雷达率得到很大的提升，还有一个是ibeo和Valeo做激光雷达的，还有Quanergy希望2020年做到200美金、1000美金，除了这几家也出来一些新的，日本的先锋也是说要在2020年能够推出可量产的激光雷达，这里面是蛮有意思的，这家Quanergy原来是做音箱的，现在开始做激光雷达。我们现在跟中科院联合做了一个博士后项目，博士后项目方向就是做激光雷达和视觉的融合，所以也欢迎大家如果有认识这一方面的博士生，也可以推荐到我们这么一个博士后的项目当中来。

第四，车联网。我给大家举个例子，今年年初在清明节的时候，沪宁高速上出现了几十辆车连环相撞的事故，如果说把自动驾驶或者无人驾驶放进去，还是没办法避免，因为下雨可见性非常差，这时候像超视距的传感器就有优势了，第一辆一踩刹车，后面的车都自动踩刹车，这样就可以避免事故，还可以更好的做编队出行，尤其针对大货车，他们对道路的利用率能够提升，安全性能够提升，油耗能够提升，对于大货车油耗的提升非常重要。在高速上一辆车非常制动，这样的变化会向后传播几公里，你在车速上突然感觉车速变慢了，可能是因为几公里前有人刹车了，以后这种速度的变化向两边传播很快就消失了，把每一辆车的速度调成前后车的平均就可以了，但是它能够去改变我们高速公路的通行，还有如果十字路有了V2X以后，交通灯也可以拿掉。

第五，测试验证的方法群。大家都纠结于自动驾驶安全还是人驾驶安全，前段时间特斯拉出了一起车祸，他说我行驶了1.3亿英里才死了一个人，美国是9000万英里就要死一个人，所以我还是比人安全。听起来很有道理，但是大家如果懂统计学就知道，它不是统计上显著的这样一种计算，因为第二天再死一个人就变成6500英里死一个人，那么究竟多少路程能够证明自动驾驶比人开的安全呢？这是兰德公司做的研究，他发现要开近百亿英里才能够证明自动驾驶比人开的安全，但是没有一家车厂在车上路之前开100亿英里。现在谷歌的无人驾驶汽车一天会跑几百万英里，所以我们也做了模拟器，模拟器什么都可以模拟，包括摄象头、雷达，可以设计在现实生活当中不存在的交通状况，我们用到了带有一定随机性，又是基于机器学习的算法，大家知道有什么问题？就是它是一种归纳法，事实上是你不能穷尽样本空间，因为你不能防止（黑客）的出现，针对这样算法，运用到不能出一点事情的自动驾驶里挑战非常大，这是谷歌和MIU发布的研究，左边的照片和右边的照片，人眼看起来没有任何一点差别，但事实上他们有一些象素级别的差距，大家可以看到中间就是象素级别的差别，因为中间这些象素级别的差距，我的深度学习算法，左边能认的出来，右边就认不出来，大家可以看到算法本身还是有很大的问题，所以我们说我们要重新去研究、测试和验证方法学。

现在的商用飞机和军用飞机，它的成本当中一半是软件的测试和验证，我们的汽车有多复杂呢？一辆奔驰的S级轿车上面的代码行数是播音787行数的十几倍，意味着你要有更好的测试和验证的方法学。

第六，小型化、高效能、高可靠的硬件结构。

我给大家看一下汽车里面的硬件，尤其是计算这块怎么演进的，一开始在2005年，斯坦福的这辆车后备厢是这样的，到2010年的时候普锐斯就变成这么小，到雷克萨斯就变得这么小，现在做到这么大，跟笔记本差不多，但是它的计算能力相当于一两百台的笔记本。

还有我们不能只考虑计算，在汽车里面有一个执行的机构，大脑发出的决策命名，怎么让方向盘、油门、刹车去执行这些决策，执行机构也不能出错，必须得考虑，这是沃尔沃的一个车，每一样功能都样双目，大家再看福特，每一样功能都有，其实除了油门没有，其他的像刹车、方向盘都有问题。

这是我们的最后一页，用中国古人的一句话“时来天地皆同力，运去英雄不自由”。意味着我们要看清楚人工智能大势，看清楚无人驾驶的大势，谢谢大家！

本文来源于"中国人工智能学会",原文发表时间" 2016-09-24"