高通两位技术大拿谈AI部署：下个战场是高能效硬件

本文链接：https://blog.csdn.net/McIl9G4065Q/article/details/80598826

▼

点击上方蓝字关注网易智能

为你解读AI领域大公司大事件，新观点新应用

编者按：AI英雄第78期对话高通高管，一位是高通技术副总裁、阿姆斯特丹大学机器学习首席教授Max Welling（韦灵思），一位是高通企业研发人工智能项目负责人侯纪磊，十问十答详解了高通如何通过硬件、软件和算法的来加速终端侧人工智能成为现实。

出品 | 网易智能（公众号 smartman163）

期号 | 总第78期（2018年5月访于北京）

作者 | 崔玉贤

在人们还在思考着人工智能将会给人类带来什么挑战时，人工智能却已经深入经济和产业的每个细分领域，我们每天使用的很多产品已经具备了人工智能的能力。高通总裁克里斯蒂安诺·阿蒙表示，到2021年人工智能衍生的商业价值将达3.3万亿美元，人工智能将成为驱动所有行业变革的关键。

事实是，人工智能要实现规模化，智能必须分布至无线边缘。高通正在研究加速人工智能在终端侧的创新。但随着人工智能的发展，消耗的能源越来越多。从统计数据上看，有数据预测到2025年，全球的数据中心将消耗全球所有可有电力的20%；另外，实现终端侧人工智能还存在散热的限制，如果手机里运行能耗过高的任务，手机就会变得非常热。

因此，不管无论是从经济效益还是热效率的角度看，我们都必须要降低人工智能运行的能耗。阿姆斯特丹大学机器学习首席教授Max Welling认为目前深度学习能耗很高，算法非常低效，如何研发出更节能更高效的硬件，成为人工智能的下一个战场。

受人类大脑的启发，高通十年前就开始了脉冲神经网络的研究，这是实现低功耗计算的一种方法。同样受到人类大脑的启发，高通正在考虑利用噪音来实现深度学习方面的低功耗计算，也就是著名的“贝叶斯深度学习”。

“贝叶斯在高压缩比的情况下尤其展现出了明显的性能优势。”Max Welling总结道，“贝叶斯可以将网络规模压缩得更小、量化程度更高，同时不损失过多的准确性，这是非常好的一个方法。”

虽然在可用的压缩算法技术相关学术著作可谓汗牛充栋，但侯纪磊认为，贝叶斯在训练上难度更高，但取得的效果更深。而Max Welling也认为，在众多技术流派中，以贝叶斯为主导的压缩算法是最有效的。

以下是对韦灵思与侯纪磊的采访实录：

图：侯纪磊（左一）与韦灵思（左二）正在接受采访

| 问：阿蒙总裁在演讲中提到，要把智能分布到无线边缘，并且在最靠近数据的边缘设备上完成训练。我们知道各种人工智能应用都需要大数据来进行训练，如果训练放在终端侧完成，我们如何确认终端侧训练的完成？将智能分布到终端侧的优势是什么？

韦灵思：我们首先谈谈进行分布式计算的优势。一方面，当我们将计算任务分布在不同边缘终端上完成，我们将获得更多可用的计算力。另一方面，数据也可以分布于边缘终端上。

至于在不同终端上完成人工智能模型的训练，这其实不是零散的过程。分布式训练的融合是个重要问题，我们正在开发新的算法，以保证在数据不变的情况下，在不同终端上完成的训练得以融合。如果数据是持续变化的，那将是持续学习的过程。

侯纪磊：我对韦教授提到的模型训练补充更多说明。首先，传统上人工智能模型的训练都是线下也就是在云端上实现。这种传统方式的一种延伸是，我们可以通过私有云或边缘计算来完成训练。这里说的边缘计算不一定是完全在终端侧完成，也可以是在企业级网络上开发私有的训练设备（training facility），甚至在家庭中的一个接入点（AP）上完成。未来，只要我们在网络边缘拥有足够的计算力，我们就可以进行模型的训练，这是完全可行的。

其次，韦教授刚刚提到的分布式学习，这是另一种训练的方式。这种方式会通过每一个终端节点去采集本地数据，这里的终端可以是手机、物联网设备或是其他形式，从每个终端上采集的本地数据量可能都不足以完成模型训练。但分布式学习可以将训练分成两个部分，第一部分包括前面提到的本地数据采集，以及在终端侧按照统一格式完成对本地数据的训练预处理（pre-process training）；第二部分则是将经过预处理的训练数据汇集到一个统一的节点上以完成最终的训练，这个节点可以是云，也可以是像私有服务器这样的边缘计算。这就是分布式学习的一种模式。

举个例子，假设我已经部署了一个自动语音识别系统（ASR），但希望能进一步提高系统性能。我可以让系统的100万个用户都分别向我提供1个小时的数据，这相当于我拥有了100万个小时的数据可以进行训练，从而帮助我进一步完善模型。概括一下，这种方式通过分布式的数据采集完成模型的分布式训练，以持续改善模型。

第三种模型训练的方式我今天在大会上有介绍，是在终端层面上进行持续学习，并在持续学习的过程中通过终端侧训练的方式，来不断改善模型。

这就是三种不同的模型训练方式。第一种完全在线下完成；第二种结合线上和线下，在终端侧完成数据采集及初步处理，然后汇集到总的节点去做更新；第三种完全在终端侧完成。这三种方式都是可能的。

| 问：对于开发者来说，哪些功能比较适合放在终端侧，哪些比较适合放在云端？

侯纪磊：对开发者而言，无论是在终端侧还是云端完成训练，都是可行的。

更多是从消费者的角度看，从保护数据私密性考虑，我们认为在终端侧完成训练是很有意义的。举个例子，消费者可以选择分布式训练的方式，也就是在终端侧将数据处理到一定阶段，甚至把训练的预处理数据进行加密，然后才把这些数据发送到云端汇总。这样的方式充分考虑了信息的私密性。此外，消费者也可以选择进行个性化训练，也就是在终端侧完成训练，不把任何数据发送到云端。这种方式能最好地保护信息的私密性。所以如果我们更多从考虑用户数据私密性的角度出发的话，将来在终端侧做训练是有很大意义的。

韦灵思：除了纪磊上面提到的私密性外，我认为可靠性也是终端侧处理的重要优势所在。像无人驾驶这样的用例，对于网络连接的可靠性有非常强的要求，因为连接一旦出现问题，会导致很严重的后果。因此，把一部分计算放在终端侧完成是很重要的。低时延是终端侧处理的另一个优势，很多用例对时延十分敏感，像是VR用例。最后，个性化也是终端侧处理的优势之一。

| 问：Qualcomm一直强调异构的计算架构，这样的架构可以为客户提供更高的弹性。但我们也知道，系统的弹性越高，其复杂性也就相应增加，Qualcomm如何应对计算复杂性的挑战，以提供更好的开发和使用体验？

韦灵思：目前我们正在进行一个研究项目，通过开发一个AI agent来实现对人工智能计算任务的全面自动化管理。这一AI agent可以监测很多工作负载，同时不断进行学习，将计算任务放在最合适的地方处理。这个AI agent有望为开发者和用户自动完成复杂性管理。我们目前正在对这个算法进行持续优化，让它实现自动化的处理。

侯纪磊：我补充一下。虽然异构计算的灵活性通常会带来相应的复杂度，但其实异构计算一直是Qualcomm的强项。我们已经将多个引擎通过异构计算统一在同一框架下，并将灵活的集成方案提供给开发者。另外，我们也积极从业界获得了很多反馈。比如说在智能手机和物联网领域，根据具体应用性质的不同，业界也已经有一些自然的选择偏向。像是音频用例，我们知道它其实更适合于低功耗DSP来处理；如果是视觉用例，那么采用GPU并行处理会更为合适。所以说，在初期应用的角度，不管是Qualcomm的推荐还是行业的自然选择，我们已经能看到使用不同异构计算引擎的一些趋势。同时，我们还可以采取刚刚韦教授提到的方式，将来通过机器学习的算法来管理机器学习任务，利用对工作负载的分析来自动判断哪个内核最合适进行处理。所以总体来说，我们一方面可以利用Qualcomm一贯的优势去管理复杂性，另一方面还可以通过自动映射的方式来进一步完善管理的过程。

| 问：韦灵思教授提到，未来人工智能算法将会以每瓦时所提供的智能的多少来衡量。Qualcomm一直利用贝叶斯深度学习来提高能效，有没有一些具体的数据来说明贝叶斯学习对于降低算法能耗的效果？

韦灵思：在我的演讲当中为大家展示了一个在图像分类的实际用例中对比不同神经网络压缩方法的示意图（如下）。从这个示意图中可以看到，贝叶斯在高压缩比的情况下尤其展现出了明显的性能优势。至于具体的数字，在不同实际用例中我们会得到不同的数据对比。除了图像分类外，我们还在其他用例下做了对比实验。总的来说，贝叶斯可以将网络规模压缩得更小、量化程度更高，同时不损失过多的准确性，这是非常好的一个方法。

侯纪磊：在韦教授的例子中，贝叶斯通过2%左右的准确度损失来实现了3倍的压缩比，3倍压缩比大概可以等同于3倍的能耗降低，你可以以此作为一个参考。当然，3倍的压缩比提升是在这一具体用例中实现的。在这个用例中，ResNet-18本身已经是一个简洁的网络了，对这个网络进行更多压缩的难度很大。在这样的情况下贝叶斯依然取得了3倍的压缩比，这充分展现了贝叶斯的强大之处。我想强调的是，具体的压缩比例与被压缩网络本身设计的冗余度、以及具体的应用场景都有联系。

| 问：除了贝叶斯算法外，Qualcomm是否还在开发其他类似的压缩算法？在中国业内，像深鉴科技等公司开发的压缩算法可以实现超过十倍、二十倍的压缩比。Qualcomm是不是也有计划开发压缩比更高的算法？

韦灵思：我认为孤立地去看一个算法的压缩比是没有意义的。我曾经在一个神经网络上实现过700倍的压缩比，而且没有损失任何准确率；但这个被压缩的网络本身就是过度冗余的，它是一种VGG网络，这种网络从设计之初效率就很低，因此700倍的压缩比其实不能说明什么。但正如纪磊刚才谈到的，贝叶斯在ResNet-18这个本来已经非常紧凑的网络上实现了3倍压缩比，这充分说明了它的性能。Gary在他的演讲中展示过一个对比不同网络的准确率和运算次数之比的示意图（如下），在这个图中ResNet-18已经处于准确率/运算次数的最优曲线上，所以说贝叶斯3倍的压缩比已经很强大。对于像VGG这类远离最优曲线的冗余网络来说，完全可以实现非常高的压缩比。

侯纪磊：我再跟大家解释一下这张示意图，因为理解这张图很重要。横轴是网络的复杂度，纵轴是准确率。而图上的这条曲线，指的是从设计网络的角度看，我在任意一个既定的复杂度下能够实现的最高的准确率。这条曲线实际是条包络线，所有的网络都在它的右下方。

这张包络线代表了当前网络设计的最高境界，也代表了在复杂度恒定的情况下可以实现的最高的准确率，或者说是在准确率恒定的情况下可以实现的最低的复杂度。如果我们要谈在某个网络上实现了多少倍的压缩比，首先我们需要先看这个网络离包络线也就是最佳曲线有多远。如果这个网络本身远离了包络线，那我们讨论它能实现多少倍压缩其实是没有意义的。

韦灵思：目前其实存在着一系列可用的压缩算法，其中一部分由我所在的大学实验室所开发，与这一系列算法技术相关的学术著作可谓汗牛充栋。我们对所有这些技术都进行过试验和测试，结果表明，以贝叶斯为主导的压缩算法是最有效的。

侯纪磊：深度剪枝其实是深鉴一位联合创始人最早提出来的概念，在去年底NIPS大会结束后我们邀请他到Qualcomm做过一次分享，当时韦教授也在，双方都有比较深的交流。从我们的角度看，我们认为韦教授提出的方法在数学第一原则的角度看是更为深刻的，往往当你从第一原则的角度去设计一个比较复杂的方法时，这个方法的潜力和最终得到的效率会更好。根据我们对数学和对深度学习体验的了解，我们相信通过贝叶斯方法、从第一原则出发去设计的做法，相对来说它的效果会更好。

| 问：是否可以理解为贝叶斯算法在普适性和泛用性方面更卓越？

侯纪磊：其实贝叶斯在训练上的难度更高，但它取得的效果会更深。深鉴的剪枝方法非常有启发性，大家也很容易理解，然而这不意味着就是最优的方法。我们相信，从数学的角度去接近最优的方法，这是韦教授这套方法的优势之一。

| 问：我们知道AI的学习和计算需要收集很多数据，包含个人数据和管理数据来进行模型的建立。欧盟近期即将颁布一项名为General Data Protection Regulation（GDPR）的法令，在此法令下，只要你没有保护好那些有可能可以辨识出特定人物或地点的数据，你就可能遭受严重惩罚。你对此有什么看法？

韦灵思：首先GDPR仅适用于欧盟，在中国和美国都没有这样的规定。从我个人的角度，我对GDPR持支持态度，因为我觉得保护隐私非常重要。同时，我相信GDPR这样的约束将会驱动更多创新。从技术层面看，我们可以通过一些技术解决方案去应对这样的挑战，比如说是数据加密，或者在本地资源的范畴内完成模型训练。假设有两家医院，我可以要求他们从数据源上支持模型更新，我们可以创建一个协议，在这个协议之下所有发送给我的信息都是私密的，所有这些信息都无法提取出个人资料。这实际上是一种分布式的思路。对于Qualcomm来说，这思路非常有趣，因为全部模型的更新都不能在中心化的云上进行，边缘计算就显得更为重要了。另一种解决方案是加密模型，我们可以将模型的每次更新进行加密，这样即使我们在云上更新了模型，也不能看到更新本身的详情，更不能从云上获取到具体信息。

| 问：高通分享了汽车和自动驾驶方面的规划，从介绍看来还是以信息娱乐系统设计为主。这是因为Qualcomm在自动驾驶方面还没有完整规划吗？还是与未完成的恩智浦收购案有关？

侯纪磊：一方面，我们今天更多强调的是Qualcomm在车载信息处理和信息娱乐市场取得了非常好的发展势头，这也给了我们信心，我们应该继续在汽车市场上加大投入。我还想要强调的是，在自动驾驶领域，对于如何通过整体的方式来发展面向自动驾驶的人工智能技术，Qualcomm对此有非常深入的见解和看法。我们在大会上也特别强调了Qualcomm不仅只是构建一个系统、把demo建起来，我们还更多地从能耗、成本和安全等多个角度来考虑这个事情。在一些具体方面，比如说传感器的研发和传感器融合，包括今天提到的利用摄像头、雷达等主动式传感器和C-V2X主动通信技术，以帮助驾驶员规避危险、且进一步提高传感器信息融合，在这些方面我们都有很多的投入。

| 问：你在大会上讲了很多语音交互方面的内容，请问是基于什么考虑？此外，目前除了智能音箱，语音交互技术还应用到大量手机甚至PC终端上，你如何看待语音交互在终端侧的应用趋势？

侯纪磊：先回答你的第一个问题。首先，对于手机来说，无论是输入还是交互，两个最重要的方式是通过摄像头和通过音频。因此，语音交互技术本身非常重要，可以说业界对这种技术存在一些刚需。

其次，阿蒙总裁在大会的演讲上谈到了推动终端侧人工智能的两个重要方向，一个是发展高能效的人工智能，这正是今天韦教授演讲的主题，就是如何在终端上用能效最高的方式来运行算法。第二个方向是发展个性化的人工智能，这其中有几个重要特性，包括情景式感知、始终开启和通过持续学习实现自主适应。这几个特性有三个共通的重要元素——终端侧、低功耗和个性化。这三个元素无论对于语音交互本身还是对于更宽泛的应用而言，在推动终端侧人工智能发展上都是非常重要的。

而语音交互刚好可以把这几个元素综合到一起，因此我认为这是展现终端侧人工智能发展趋势的一个很好的话题。

此外，你刚才也提到了在终端侧完成训练的问题。从模型适应的角度看，语音交互实际上是持续在终端层面上完成模型更新，因此它也是终端侧训练的一个很好的用例。

再回答你关于趋势的问题。其实我们非常高兴看到OEM厂商和其他生态系统成员持续推动和拓展语音交互在不同终端上的应用。我们的目标并不是要构建一个完整的终端侧语音交互系统，我在大会的演讲中有着重强调，Qualcomm旨在构建一个终端侧的解决方案架构。如果OEM厂商或独立软件开发商有比较好的解决方案，我认为Qualcomm和他们在生态系统内相互补充会是一件非常好的事情。从另一个角度看，我们认为无关键字（keyword-less）、始终开启的语音交互将会是未来非常重要的一个技术方向。这需要通过真正低功耗的硬件架构作为支撑，在这方面我们还有大量的工作需要完成。

韦灵思：纪磊已经谈得十分全面了，我再稍微补充我的看法。这其实可以回到我们的第一个问题去看。计算可以在云端完成，也可以在边缘或者说终端侧完成，关键在于将计算任务分配到最合适的地方进行处理。我相信，我们将会采用组合式的方法来完成，比如将一部分对时延不敏感的计算放在云端处理，将时延敏感性任务放在终端侧。实质上，这还是一个对计算任务进行分配的管理问题。我相信生态系统中的不同部分都会被整合和利用。随着5G的到来，我们可以更快地接入到云端，从而能更好地在整个生态系统中去分配计算任务。

| 问：Qualcomm在软件方面已经有旷视、商汤等合作伙伴，同时Qualcomm也在发展自己的算法，这是否会与合作伙伴形成竞争？

韦灵思：我们开发自己算法的最重要原因，是为了确保所有算法都可以在骁龙平台上高效运行。一方面，我们可以通过开发自己的算法来对系统进行压力测试，从而启发我们对于下一代硬件系统的开发。另一方面，有的客户会希望我们帮助他们对其网络做压缩或量化，以适应在骁龙平台上的运行。因为我们已经有了算法开发的经验，我们就可以为他们提供很大的帮助。客户也可以选择使用我们开发的一些算法，主要面向的是一些没有资源和能力做独立算法开发的客户。

侯纪磊：我补充一个方面。当Qualcomm看到一些技术发展的趋势，我们可以通过自己的一些实现方式，包括开发原型机和技术展示等，去向业界展现这些重要的趋势，同时影响甚至是引领业界向某些技术趋势加速发展。我认为这也是我们跟合作伙伴合作的一种方式。(完)

网易智能

聚焦AI 读懂下一个大时代

长按扫码关注我们