专访 | 快手王仲远：技术创业不要拿着锤子找钉子

智源社区

于 2021-08-16 12:30:00 发布

阅读量786

点赞数

文章标签：人工智能大数据编程语言机器学习深度学习

本文链接：https://blog.csdn.net/BAAIBeijing/article/details/119745929

版权

【栏目：产业洞察】2018年的夏天，在雍和宫五道营胡同，当时在美团任职的王仲远博士在等待朋友的时候刷了刷大众点评，发现了一家东城区评分第一的咖啡厅。但当他走进这家评分五星的咖啡厅，看到拥挤的过道和狭小的空间，和想象中的五星咖啡厅相去甚远。

在翻看1000多条真实评论之后，他发现在「性价比高」、「口味好」等好评之外确实也出现了「空间狭小」这样的负面评价，不同维度的用户评价展现出机器评分本身的局限性。

受此启发，王仲远博士带领团队研发了一个细粒度情感分析NLP模型，用AI将所有用户评论通读一遍，定出20多个维度，在描述一家餐厅时涵盖了一家店的服务态度、空间、菜品质量、服务质量以及好不好停车、用户是否愿意推荐等等评价指标。

从实际出发研发AI模型，实际场景中细节信息的反馈总能得出更丰富的产品研发灵感。

从技术到真实的产品，既有从0到1的创新突破，也有从1到100的规模化实践，技术产品化的漫漫长路，选对了赛道往往只是第一步。在许多时候，从0到1能否成功，技术本身往往不是决定性因素，更重要的是技术能力与用户痛点需求是否匹配，痛点的普遍性决定了市场规模的大小。

快手技术副总裁王仲远近期在智源社区的采访中向我们介绍了从技术到产品应用落地过程中的心得体会，为技术创业者提供了宝贵的方向性指引。

采访对象：王仲远

采访：李梦佳

整理：杨阳李梦佳

王仲远，博士，快手技术副总裁，人工智能团队MMU&Y-tech 负责人。荣获2018年“《麻省理工科技评论》35岁以下科技创新35人”。曾在美团、Facebook、微软亚洲研究院任职，负责人工智能核心技术研发。王仲远博士在国际顶级学术会议及期刊发表论文50余篇，其中包括美国著名科学杂志《自然》人工智能子刊《Nature Machine Intelligence》，以及获得国际顶级学术会议ICDE 2015最佳论文奖。出版学术专著3部，获得美国专利5项，中国专利30余项。在人工智能研究领域及搜索推荐等实际产品系统中均有丰富经验与产出。他的研究兴趣包括：自然语言处理、知识图谱、多模态、搜索推荐、深度学习、数据挖掘等。

技术产品化实践

Q：您在很多大厂都工作过，从美团、facebook、微软亚洲研究院再到快手，在不同公司，技术产品化的路径有什么不同，最直观的感受是什么？

A：不同公司核心竞争力差异很大，有些是产品，有些是运营，有些是技术，有些是战略。快手跟Facebook比较类似，它的核心竞争力是技术。在快手这样的平台上，如果用户创作内容的工具不够便捷，内容理解或者推荐技术做的不好，是根本没办法吸引到用户的。

但对于一些用户需求比较明确的，比如说电商、外卖，它需要解决用户衣食住行、买东西的需求，更重要的是看能不能完美匹配供给与用户的需求，并且完成最终的履约。

通常来讲，人工智能有4个组成要素，大数据、计算力、算法、场景。虽然公司之间的核心竞争力不同，但对于人工智能的需求，最终会殊途同归。

Q：请您讲一下您具体参与过的某一项技术或是某一个产品落地的过程。

A：这些年我参与过的实际技术落地案例很多，可以分享一个非常有意思的案例。印象中是在2018年的夏天，当时我还在美团工作，一个周末的下午，我去雍和宫五道营胡同附近去见一个朋友，朋友还没来，所以我就想着找一家咖啡厅坐坐。

我就用大众点评查了查附近的咖啡厅，在大众点评上找了一个「五星级」的咖啡厅，也是东城区饮品排名第一。

通常来讲，我觉得一个五星级的咖啡厅，它可能会有比较舒适的座椅，氛围比较好，还有一些音乐，可以在那里等人，也可以进行会谈。但到了现场之后，我发现整个咖啡厅非常小，过道也非常拥挤，坐满了人，用玻璃杯冲泡的咖啡，一点都没有印象中的五星级咖啡厅的样子，反差非常大。

而且这家店有1000多条评论，我当时的第一反应是这家店是不是刷好评刷上来的。于是我仔细看了这些评论，发现好评主要集中在口味好、服务好、性价比高这几个方面。但是确实也有很多用户抱怨说他的位置难找，过道太过狭小，座位比较拥挤，空间小。原来大家的感受都是如此。

这件事说明，原来的这种粗粒度星级评价，并不能很好地刻画一家商户在不同维度的好和坏。所以之后我们就研发了一个细粒度的情感分析NLP模型。我们把所有用户评论用模型去阅读一遍，定出20多个维度，从一家店的空间大小、口味好坏、食材新鲜、服务质量、排队时长、用户是否愿意推荐，以及好不好停车等多个维度去描述一个餐厅。

最后我们让机器阅读了超过40亿条的评论，对大众点评上的每一个产品都做了非常详细的多维度刻画。现在大家用大众点评进入每个产品详情页的时候，还可以看到详情页下方会有一个多标签的展示，其实就是让机器用算法像人类一样去阅读这些评论，产生一定的理解，最终去告诉用户这家店哪些地方比较好，哪些地方可能不太好。这是一个从实际出发研发AI模型的案例。

大众点评中产品的多维度刻画

Q：您觉得在技术落地的过程当中，最大的挑战和困难是什么？会遇到哪些瓶颈？

A：通常，技术落地时一个非常大的挑战，在于我们的技术如何真正做到足够的准确性和召回率。就以我刚才讲的情感分析为例，在学术界，我们认为这个问题是已经被解决得非常好，通常我们的 F1 值（F1值 = 正确率 * 召回率 * 2 / (正确率 + 召回率)都能达到90%以上。

但这样一个学术界经典的研究问题，通常都有特定的假设。所以当我们需要把技术落地的时候，面临的第一个挑战就是很多学术论文中的假设，在真实产品的使用场景中是不存在的。所以我们需要去摒弃掉这些假设，重新审视这个问题。

第二个挑战是我们如何有效地得到高质量的训练数据。以刚才我讲的例子为例，我们当时是花费了大量的标注能力，去标注了一个非常大的数据集，还举办了一个AI挑战赛，让大家一起都能够参与到其中。我们现在讲，很多模型要想做的好，是需要有大量的标记数据的。

第三个挑战是工业化落地中的性能问题。通常来讲，在大部分学术研究里面，更在乎的是效果，比较少在乎效率。但在工业界，如何提升效率，让它真正可以运行，也是一个非常大的挑战。

说到效率，以知识图谱为例，学术界很多时候做的知识图谱，通常都是百万量级的节点，但是在实际的工业界里面，每一个大型公司所建的知识图谱，通常实体量级都达到了数十亿，就是说，学术界和工业界的知识图谱，有几百倍乃至数千倍的规模差异，会直接带来解决方案上的巨大差异。

所以很多在百万量级能够运行的一些算法，可能在百亿、千亿级这样实际的工业界的知识图谱里就根本无法运行。所以如何让学术界偏小规模中能够运行的算法，在工业界真正超大规模的数据集中去落地，是一个非常具有挑战性的事情。

智源研究院最近发布的超大规模预训练模型，我觉得确实是一个非常大的突破，因为它解决了我刚才提到的两个比较大的痛点。第一，标注数据集的问题，因为如果使用预训练的话，它相对而言能够比较容易地去获得这些数据，能够减轻传统的方式大量标注数据的所带来的挑战。

第二，智源的超大规模预训练模型能够训练下来，我相信在系统工程上也有非常多的创新和突破。

Q：在某一项产品或者技术研发过程中优化性能、提高效率的问题上，您有做过哪些具体的动作吗？

A：以BERT模型为例，18年10月，Google首次发布了BERT模型，改变了整个NLP领域的技术生态。

最开始Google所发布的BERT模型其实只是单机版，对外开源的部分是单机的代码。我们当时计算过，如果我们用这样的单机代码，把我们自己内部的数据retrain一遍的话，可能需要一年时间。

Google的这个模型是在他们自己的TPU上面去跑，而我们需要在比如说Tensorflow，以及GPU阵列上去跑我们的模型，所以在这个过程中我们解决了非常多的分布式通信以及性能优化的问题，包括对于BERT本身的加速等等问题，才使得最终每一次的模型训练能够压缩在数天之内，一定程度上解决了效率的问题。

拿GPT-3为例，训练一次的成本可能要1200万美金。我记得GPT-3的研究人员曾说过，他们在训练过程中发现了一些bug，但是因为训练的代价和时间周期都特别久，所以只能忽视掉 bug 继续训练。

压缩和训练大模型其实也是快手内部我们最近在做的工作。

有关AI创业

Q：从技术到产品，从0~1和1~100当中最大的差别？您比较擅长的是哪一种，有哪些体会？

A：不只是创业公司，即使大公司也有非常多的项目是从0到1，当然创业公司的产品构建案例更多。我的体会是，从0到1的产品，技术本身往往不是决定性因素，相对而言，更多的是看技术能力与用户痛点需求是否匹配，以及这种痛点的普遍性有多强。在这个过程中，技术是一个支撑，并不一定是决定成败的核心要素。

比如，Facebook最开始创业的时候，扎克伯格其实就写了一个社交网络，这个网站需要用到的是非常基础的网页代码技术。但是现在Facebook已经发展到服务30亿人的规模，它需要攻克的技术难点和深度就非常大。

再比如外卖，在中国要想做好外卖，需要非常复杂的路径规划，以及用户点的外卖和骑手、商家之间的匹配等技术点。

在国内，美团做外卖用了很多 AI 技术，但在海外，欧美国家，做外卖不需要那么多技术，因为地广人稀，周边可选的餐馆也就那么几家。

从1到100，意味着这个产品解决的用户需求已经被验证过了，是一条经过验证的通路。当这个产品所服务的用户越来越多，所积累的数据越来越多，所要解决问题的复杂性也会越来越高，甚至会呈指数级的增长。在这个过程中，技术能够发挥的价值就会越来越大。所以Facebook，从一个简单的互联社交网站开始，发展到现在全世界的工程师都会认可 Facebook有非常强的技术实力。

Q：您刚才提到，AI创业者要是想成功，需求和场景要先匹配，那么在赛道的选择上有哪些建议？

A：很多技术出身的同学，确实创业热情很高。单就技术研究而言，最重要的是要摒弃杂念，安下心来，踏实地把某一项技术不断的做深做透，做出核心的竞争力。纯粹做技术，需要时间的沉淀，还要有坚定的信念，并且要面对嘲讽、不信任、孤独感，然后还要有一个坚定的信念。

但反过来，如果希望这个技术能让更多的人使用起来，我觉得最重要的一点是在选择赛道，要判断清楚这个需求是不是真的痛点，以及这个痛点的普遍性有多强，因为这就基本决定了最终的市场规模。

所以这是很多技术创业者，创业失败时最经常碰到的问题。因为通常来讲，技术创业者都已经有自己非常熟悉的技术，想拿出来造福大众。但其实很多时候是拿着锤子找钉子，这个地方我能不能钉一下，那个地方能不能钉一下。

如果忽视了用户需求，忽视了市场环境，忽视了商业的本质，就会非常的危险。所以我也跟很多的投资人有聊过，很多投资人都建议技术创业者最好要有一个商业上的合伙人，这样才能够确保技术创业最终能取得成功。

032

有关快手

Q：快手本质上也是做内容生产，您觉得什么样的内容才是优质的，或者说能被大众认可和喜欢的呢？如何用AI技术让内容变得更加普世，更加被大众接受？

A：我觉得快手的一个理念是我非常欣赏并推崇的，去拥抱每一种生活，尊重生活的多样性，我们希望能够用技术让每一种生活都能够被人们所看到、欣赏和尊重。

所以我们在做内容选择的时候，并不会一味地去「筛选」出优质的内容传递给每一个用户，当然优质的内容通常会被大家偏爱，这是正常现象。但在做技术方案和理念时，我们会非常侧重普惠、公平，这是我们在快手非常坚持的原则。

在我看来，快手对于整个行业的贡献是内容生产和消费会变得越来越「平权」。每个人都有机会快速、便捷地生产内容，并且让这些内容被其他人所看到。

当然，不符合国家法律法规的内容我们一定会拿掉。但对于其他剩余的内容，我们更加尊重其多样性，而不是简单一味地追求优质。

拿音乐来说，在整个音乐的发展历程中，它从最开始是属于皇家、贵族、宗教的，到现代社会，基本上音乐是能够被每一个人放在手机等随身设备当中随时随地欣赏到。AI时代，我们希望每一个人都能够变成音乐的生产者，能够非常便捷地创造出属于自己的个性化音乐。

Q：从技术角度，或者从内容生产和内容理解上，快手自研的深度学习框架，大概是什么样的水平？

A：我还是可以非常自豪的说，我们在这一块应该属于行业里的领先水平。在内容理解，尤其是多模态的内容理解，以及内容理解和个性化推荐系统相结合的方面，目前应该处于全球领先。

Q：未来您的技术团队重点想要攻克的还有哪些场景下的具体问题？

A：以内容理解为例，我们未来还是希望能够把这些高级的语义信息理解得更加透彻。确实有非常多的视频，必须要有相应的文化背景，才能够理解的清楚。这对于人类都是非常大的挑战。从技术点上来讲，多模态或跨模态的研究会持续地进行。

另外，在内容创作方面，我们会继续追求便捷。我们希望将来有一天，用户只是讲了一个在脑海中想象到的故事，就能够自动产生基于这个故事的一段视频。

当然，如何更精准地进行个性化的内容分发，将内容准确分配给可能感兴趣的人，也是我们会持之以恒去不断追求的。

Q：这三块（内容理解、内容生产和分发）哪一个难度和挑战最大？

A：其实各有各的难度。当内容创作，尤其是高质量的内容创作，不再是传统的音乐制作人、电影制作人，乃至专业的自媒体人所独有能力的时候，AI技术才真正进入到一个普惠化的阶段。现阶段大家可以自己拍出一段视频，但这个视频的质量和能被其他人消费的水平还是有一定的距离的，这是内容创作上的挑战。

内容理解方面，像是刚才提到的这种高级语义信息，以及视频背后所要传递出来的一些中心思想，对于高级的人工智能来讲，有一定的基础，但是面临的挑战依然非常大。

推荐系统方面，近年来基于深度学习的推荐系统技术发展迅猛，但是如何让推荐系统更加可解释化，让推荐系统从黑盒逐步变成白盒，变得可控，目前技术上依然在寻求最佳解决方案。以上这些方面，快手都投入了大量的研发工程师在努力解决。

Q：快手的技术研发的时候会考虑它不同的应用场景吗？或者说技术落地分地域吗？

A：其实我们在实践当中更看重的是如何让我们的AI技术能够被每一个人都用到，这意味着技术的使用门槛要特别低，要普世。我们的用户群体的分布很广，从一二线城市，到三四线城市，乃至农村。这对我们的技术提出了更高的要求，因为不能只在高端机上运行。

比如说，我们希望不管什么型号的手机，都能够拍出魔法表情、特效，也都能够非常快速地欣赏到分辨率比较高的高质量视频。

快手2018年上线的“萌面Kmoji”魔法表情

所以我们在做解决方案的时候，具体做法比如说模型的压缩。一方面我们希望把模型越做越大，效果越来越好，另一方面我们又要把模型不断压缩，使得几乎在每台手机上都能够去运转这样的模型，让每一个用户都能够体验到人工智能技术所带来的效果。这是一个看似非常矛盾，但又是我们孜孜不倦在努力的方向。

Q：总结来讲，可以理解为让AI技术破圈。

A：对，我们其实一直都在追求让我们的AI技术变得更加有温度，要更加去靠近每一个人，让每一个用户都能够看得见，摸得着，体验得到。

欢迎加入智源社区「AI创业」交流群

（更多活动信息将在交流群中同步）

AI产业化进入新十年，最新技术如何从实验室顺利落地，前沿技术如何快速赋能新场景，依然困惑着来自学术界和产业界的创新团队。

在这一时代背景下，为了更好地帮助创新群体，北京智源研究院特发布「源创计划」。该计划将面向来自学术界和产业界的创新团队，开放智源 AI 人才网络、大规模智能模型、数据集和应用场景等生态资源，以加速 AI 源头创新向源头企业的跨越。对于来自学术界的AI科学家，源创计划将帮助其对接真实的场景，推动产品加速或技术迭代，同时也会帮助科学家找到一对一的创业导师。对于来自产业界的创业者或者传统企业，源创计划将帮助其对接 AI 技术、首席科学家及AI工程师资源。

扫描如下二维码投递项目