放弃华为天才少年 Offer、和陆奇 10 分钟定投资,25 岁的关超宇想让钢铁侠成为现实 | AGI 技术 50 人...

【编者按】在人工智能的世界,有一群人正深耕于推动通用人工智能(AGI)从科幻走向现实。CSDN、《新程序员》特别策划“AGI 技术 50 人”访谈栏目,挖掘 AI 背后的思考,激荡 AGI 的智慧,走进那些在 AI 领域不断探索、勇于创新的思想领袖和技术先锋们的心路历程。

本期我们的主角是清昴智能的创始人关超宇,也是目前“AGI 技术 50 人”年龄最小的嘉宾。出生于 1999 年的他,是年龄最小的清华研究生特奖得主,拿到了华为天才少年的 Offer 却没有去,而是基于想把钢铁侠变成现实的梦想,从 AI Infra 底层开始创业。

作者 | 唐小引、王轶群

出品丨AI 科技大本营(ID:rgznai100)

54e2f055c55fd711edc375b7ab3414e6.png

2021 年底,ChatGPT 还没有问世,大模型还没有席卷成风。此时年仅 22 岁、即将从清华研究生毕业的关超宇面临着三个选择,继续读博、去大厂还是创业呢?关超宇内心有点迷茫。此时他已经是清华大学最年轻的研究生特等奖得主,获得了“西贝尔学者”称号,是世界首个自动图学习库 AutoGL 的首席架构师,同时还手握着令人艳羡的华为天才少年的 Offer。

一样的迷茫曾在 16 岁的关超宇内心也上演过。1999 年,关超宇生于河南新乡,尽管这一年是互联网巨头诞生年,互联网已经在国内开始高速崛起,但关超宇直至上了高中通过计算机课才接触到编程。2015 年,面对高考志愿的填写与选择,对于五花八门的专业,关超宇不理解专业的区别究竟是什么,这个时候他选择谋定而后动,由此进入了上海交通大学的工科试验班,不着急做专业细分,先研究再选择。也是在这时,他有了自己的初心——希望让科幻世界里的钢铁侠成为现实。

但是这个梦想要想实现颇为不易,它需要各种技术的完善与组合。关超宇发现,未来世界的根基关键在于 AI ,而 AI 的根基则很大程度上在于如何才能真正实现并落地。

钢铁侠之梦让他选择了计算机系,也让他在 2021 年再一次面临人生分岔路口选择之时,放弃了去大厂、读博,而走上了 AI Infra 的创业之路。他与大学同学和研究生师弟一起合伙,聚焦 AI 模型推理优化与芯片适配的清昴智能由此诞生。公司核心团队包括 CEO 关超宇,清华大学计算机系教授、清华大学大数据研究中心副主任朱文武担任首席科学家,也是关超宇的研究生导师,前华为资深工程师、上海交通大学学士、新加坡国立大学硕士姚航担任 COO。

成立不足两年,清昴智能发展速度惊人,推出了 AI 大模型推理部署加速工具库 MLGuider,优化模型的推理和部署环节,降低 AI 模型的使用门槛,致力于解决 AIGC、自动驾驶、AIoT 等领域复杂 AI 模型的落地难、性能差、资源耗费高等问题,从而打破当前中国面临的算力瓶颈。清昴智能和华为、AMD 等业内领军企业开展了多方位的合作,先后已获得了四轮融资,投资方包括奇绩创坛、绿洲资本、华为哈勃战投、启赋资本及达晨财智。

本期《AGI 技术 50 人》对话清昴智能 CEO 关超宇,在我们大多数人还是刚毕业成为职场新人的年纪,关超宇已经是积累了丰富行业经验和独到见解的高潜力 AI 创业公司 CEO。一起透过他的成长经历、创业及 AI 思考,找寻未来 AGI 之路。

本文将收录进「新程序员008:软件开发智能化实践

cdb6525ec9eb4c59f8454c410c737886.png

AI 天才少年:兴趣总是比课程先行一步

《新程序员》:你最早是什么时候开始接触计算机,是如何开启编程之路的?

关超宇:小学时,逻辑和数学比较吸引我,也会自学奥数。但真正接触编程是高二在学校上计算机课的时候,课里有一小章节是讲编程的,让我觉得把一件事情变成一个非常标准化的程序交给机器去做,从而解放人力,避免重复劳动。这一发现对我而言意义非凡,激发了我对高效自动化处理方式的浓厚兴趣。当然,老师其实也没有讲太多的编程课,我就去网上查一些资料,当时是读的是谭浩强版的《C++编程》,那时也只是学了一些皮毛。

《新程序员》:最开始接触的语言就是 C++,那你的起步门槛还挺高的。

关超宇:那个时候还学了许久的指针、数据结构,最开始我用的 IDE 还是 Visual C++,挺古老的编译器。

《新程序员》:有自己摸索着写什么程序吗?

关超宇:高中时我还没有计算机,用的都是学校的,只有上课时才能用,一节课 40 分钟其实也做不了什么,而且下课电脑就重置无法长期保留,所以我只写了一些简单的程序,模仿 C++ 书里的一些 Demo,比如做成绩的录入和分析系统,但都是 cmd 命令程序,没有可视化窗口。

到了大学就写了一些小项目,比如实现能统一 QQ 音乐和网易音乐的播放器,通过调用 API,统一两个应用的歌单。大三时我已经偏向人工智能与机器学习的方向,就用 Python 和 PyTorch 做了一些研究。

《新程序员》:大学怎么开始研究人工智能的?

关超宇:我通过工科试验班进入上海交通大学的第一年,课程设置并未明确专业界限,大一的时候学习了以 C++ 为主的编程课程。到大二时学科分流,我正式进入了计算机系。从这时开始我才接触到一个叫“人工智能”的概念,它和我理解的具备确定性特征的编程思路不太一样,有点类似于概率事件或概率建模。我感觉这又是一件非常令人新奇的玩意儿,人工智能可以创造一些原来没有办法用标准的数学语言或规则去描述的系统。

因此,在大三老师讲人工智能的课程之前,我就迫不及待地在 CSDN 等一些技术网站上,搜人工智能入门的讲解,当时最有名的是斯坦福大学的《CS231n:用于视觉识别的卷积神经网络》。我跟着学了一个暑假,它让我真正入门了人工智能。

后来,我有幸在赵海老师(上海交通大学教授)的实验室做了两年研究。当时赵海老师带我做的研究方向刚好就是自然语言处理,在做一个语义角色标注的很细分的方向。那是 2018 年,BERT 尚未面世,行业内更多的还是以 Word2Vec、GloVe 这样的一些预训练的 Embedding(嵌入)为主,再在上面做一些架构设计。当时,我接触到了 2017 年发表的那篇在机器学习领域具有里程碑意义、提出 Transformer 架构的论文“Attention Is All You Need” ,我把它与基于 LSTM 的模型做了结合,去解决语义角色标注的问题,那是我第一次论文投稿,改了很多次又投了两三次,最终被 NAACL 期刊接收。

在大三下学期和大四上学期,我获得了由学校组织的去微软亚洲研究院访问研究的实习机会,在微软跟着谢幸老师(微软亚洲研究院资深首席研究员)和王新兵老师(上海交通大学教授),做推荐相关的工作,当时的工作组叫 Social Computing,也是和 NLP 相关的领域。

那是 2019 年底,BERT 热度很高。我们基于一些可解释的方法,分析了在 NLP 中常用的主流深度学习模型,分别是 CNN、LSTM、BERT、Transformer,分析其如何构建输入概率建模,包括每一层是做什么,用信息论的方法去分析理解。当时我对 NLP 相关的一些研究进展已经比较熟悉了。

借着微软的契机,我获得了保研清华的机会。微软实习期间,非常碰巧的是,一起工作的王新兵老师是从清华出来的,而谢幸老师和清华大学的朱文武老师关系很熟。我在微软实习期间的表现很好、工作效率高,老师们也都比较喜欢,听说我在保研要选择学校,就把我介绍到了清华。

研究生阶段,我跟随朱文武老师做自动机器学习相关的研究。当时,朱老师带领的自动机器学习组刚成立。而实验室里的张文鹏博士此前带队参加了 NIPS 2018 自动机器学习挑战赛拿下了全球第二、高校第一的成绩。让我觉得自动机器学习是一个未来非常有前景的研究方向,由此走上了 AutoML 之路。

我后来的研究也都是将 NLP 和 AutoML 相结合的工作,在学术和代码层面做了诸多尝试。本科阶段我是打开了人工智能的大门,而研究生阶段则不仅是持续做研究,也由最初作为队员参加比赛,到后来作为队长带领实验室的整个自动机学习组去参加各种比赛和研讨。我们 AutoML 组当时还开源了一个比较有影响力的一个项目 AutoGL(用于图数据的自动机器学习框架和工具包),在 GitHub 上也有上千 Star 了。总之,我在各个领域都有过尝试。

《新程序员》:开源 AutoGL 是出于什么样的考虑?从接触到做开源的过程中,对其理解有什么变化吗?

关超宇:接触开源是上大学时,当时没有很深的理解,好多问题都是从网上搜来的,包括 GitHub、CSDN,最开始对开源的理解就是知识共享,方便大家能够信息对齐,对新手来说,能够站在巨人的肩膀上前进。

学术界非常推崇开源,开源能够有力地推动学术研究的进展,我最开始的研究其实也都是建立在巨人的肩膀上。我们为什么要做 AutoGL 这个开源库?其实有两方面原因,首先是开源库能够让大家更好地接受,而且开源还有一层意思是共建,在开源社区里大家会对你的项目提问题给意见。其次,导师经常与我们研讨如何提升学术研究的影响力,当时觉得开源是一个非常好的形式,能够让大家了解我们实验室做的一些研究,哪怕是作为 Baseline 复现的工具也可以。

我一直以来对系统构建都比较感兴趣,最开始做 AutoGL 时,也没想做成一个研究成果,我们要解决的是自动机器学习在图像领域的问题,当时还没有统一的标准。我们看到尽管学界有很多文章和方法,但研究者调用各种库时却非常困难。我们实验室在这方面也有一些成果发表,我的想法是如果能更方便大家去做实验,帮助大家基于已有平台在研究层面少做一些代码开发的工作,对我们后续的研究也会减少重复劳动,从这个角度是很有价值的。

《新程序员》:你拿到了华为天才少年的 Offer,但没有去华为,也没有选择继续读博,而是最终选择了创业,这是为什么?

关超宇:2021 年底毕业前夕时,我面临着工作或者继续深造的选择。关于这个选择,我和老师、同学都聊了许久。那时大模型还没有火,我面了几个大厂,但总感觉那份工作并不是我想要的,进去可能就是作为一个螺丝钉的角色。我希望我做的事情,一方面是我喜欢的,另一方面是我能掌控的。而对于读博,我本身是一个比较喜欢新事物或挑战的人,研究生期间在研究上各条路也走过,包括做开源、打比赛等都有探索,大概清楚做研究是一条什么样的路。我上学中间跳过几级,小同学两岁。这两年是我的机会,相当于我有额外两年时间可以探索其他的事物。

所以,我也在考虑创业的方向。和老师聊了许多次,老师非常支持我创业的决定。当时做过简单的市场调研,发现在人工智能与 AutoML 领域有着非常多的应用,在实验室也有许多合作项目以及合作案例在落地。让我觉得这是一个比较适合创业的时间点。而我最开始的创业方向其实并不是做大模型,而是面向边缘设备的模型优化。

4cff46fe513e3788e66aefad64429be4.png

不打一天工,从 AI Infra 入手让钢铁侠成为现实

《新程序员》:很多 AI 创业并不会选择这么底层的一个赛道,你是怎么考虑的?为什么会选择走这个方向?

关超宇:有内因和外因。内因是我们实验室本身的研究背景就在这一层。最开始做边缘节点上的 AI 也是实验室的研究方向之一。我研究生期间也做过边缘计算、自动机器学习、架构搜索的研究。其中一个目标便是要解决在算力资源有限设备上如何找到一个更合适的 AI 模型,并且是让机器自己来找。外因上,市场也有这方面的需求。我们最开始是主打一些 AIoT、自动驾驶等场景。2022 年底,我出来创业,拿到的第一笔投资就是来自陆奇老师。

于我而言,更深层次的可能与我的成长历程有关系。我在河南新乡长大,在学校时并没有和互联网或者与外界交流的渠道,都还没有手机,并不知道外面是一个什么样的世界,每天都是在学习。高中时目标明确,就是要考个好大学,但到大学后,视野完全变了,目标也不确定,没有人告诉你在大学里也一定要学习拔尖,周围老师、同学的状态完全不一样。同时我也拥有了自己的手机、电脑,能够随时随地浏览网络,这个阶段对我像是第一次信息大爆炸,让我有点困惑。

我在高考填志愿时都不知道那些专业究竟是什么、有什么区别,听到计算机、微电子、电气工程这些名词时,我压根都不知道未来是要做什么,能够获取信息的渠道也十分有限,这也是我为什么会选择工科试验班的原因——先不着急做下一步的细分。我花了很长时间去研究各种科目,到面临分流选择时,我第一次填的是微电子,我当时的想法是:我要做一个像钢铁侠那样的人,做一身很酷的装备。微电子的老师说:你来我们所,就可以做这种装备。后来经过了一年的时间,我发现要想实现,最核心的还是靠 AI,所以后来最终选择了计算机系。

《新程序员》:所以你的终极想法是让钢铁侠成为现实吗?

关超宇:对,这是我的目标之一。科幻片描述出来的一个信息化、智能化程度非常高的时代是非常吸引我的。不仅是有自己的机器人,像虚拟现实、增强现实这些技术,如果真的发展比较好的话,对我们的生活方式帮助是非常大的。

《新程序员》:诸如钢铁侠的全息投影、VR/AR 这些技术已经发展多年,但仍然在探索中,你想的是更宏观还是更细节的维度?

关超宇:我可能是偏更宏观的,科幻片里描述的世界,像是把真实的物质世界变成一个有像唯心的世界。如果技术能够发展得很好的话,人可以去改变或操控周围的环境。我感觉这是一个非常令人兴奋的事情,也和目前创业的研究方向有关系。那是一个非常宏大的终局,想要到达,需要各个学科的发展都非常完整的情况下才能实现。

基于目前所积累的一些技术路线,我认为未来世界的根基关键在于 AI ,而 AI 的根基则很大程度上在于如何才能真正实现并落地。这也是我们为什么要选择一个非常底层的创业方向,做 AI Infra,能够让模型真正在现实世界中达到良好的效果,这是我选择创业方向的逻辑。

254fd35881ac75fe571dda83c8630f74.png

和陆奇的极速 10 分钟:技术方向和团队是决定性的因素

《新程序员》:刚创业就拿到了奇绩创坛的投资,和陆奇博士有聊过吗?

关超宇:我觉得可以说是双向奔赴,陆奇老师是一个非常拼的人,奇绩的团队找新项目也非常拼。他们是在技术领域非常专业的一家基金,比如会去找顶会论文发表的清单,找一些可以商业化的方向和论文。由于论文作者通常会挂上邮箱,于是他们会通过邮箱来联系作者,说你的研究非常有落地价值,愿不愿意一起来做科技成果转化的事情。

在我萌生创业想法时,刚好收到了他们的邮件,同时身边的人对奇绩创坛的评价也颇高。我就回复邮件走了奇绩的流程,和陆奇老师是有一个 10 分钟的快问快答环节,做过一些交流。

《新程序员》:这 10 分钟是第一次和陆奇博士接触吗?有哪些信息上的交流?

关超宇:对。这更像是他们的面试流程,而不是坐下来一起探索什么方向。他们看项目的方式比较特殊,10 分钟的时间里,会问到怎么收费、商业模式是什么、未来的技术演变方式如何,为什么是你这个团队、为什么是现在开始创业……通过诸如此类的一些问题来判断这个项目是否合适。

《新程序员》:聊下来觉得自己的项目最打动对方的点是什么?

关超宇:他们比较偏技术,我觉得技术方向和团队是让他们做决定的因素。

《新程序员》:奇绩创坛很讲究技术驱动以及创始人的技术背景。在创业的起步之初,团队是怎样的构成?

关超宇:最开始有三个合伙人,分别是我、学弟陈虹以及我的本科同学姚航,分别担任 CEO、CTO、COO。我的学弟陈虹,现在是博四在读。我俩从我研究生进实验室时就很熟,他在同一个实验室跟着另一位同学做研究。到我研二时交流逐渐地多了起来,经常交流一些研究上的进展,他就坐我隔桌,一些比赛也是我作为队长带他打的。我们之间有很深的技术和工作上的互信根基。当我说有创业想法时,他非常支持我,就加入了进来。他现在会参与创业,但由于博士尚未毕业,不是全职的状态,公司的技术我带得更多些。

我在上交大本科时就和航哥(姚航)一个班,大二时他是班长,我会主动帮他分担一些班级事务,做一些信息通知和收集的工作。和他工作非常地舒适,他能够调动大家的积极性,是一个让大家更有向心力、凝聚力的角色。我们班级规定班长每人不得连任一年,所以到大三时我就担任班长,而姚航则来支持我的工作。我们俩从学生时代就是一个很好的搭班子的组合,建立了深厚的友谊。

c3074481bca8b25676a639fb7af05ce6.jpeg

关超宇(右)和姚航(左),创业起步之初留下共同合影

后来他去新加坡国立大学读书,毕业后去了华为,做镜头模组相关的工作。有一次他出差来北京到清华看我,正好是我想创业的时候,听说我想创业,他非常激动,义无反顾地想加入。他是一个非常信任我的人,坚信跟我一起能做有意义的事。就是这样一个非常好的哥们儿。放弃了在上海的华为工作,跟我一起来北京创业。最开始的时候,奇绩创坛那笔投资还没进账,我们就是花自己的钱,姚航拿出了自己的积蓄,而我则是把手里有的奖学金都用上了。在办公场地上,奇绩创坛提供三个月免费让公司过渡的场地,而设备则来自学校的实验室,我们就通过各种“白嫖”资源的方式开启了创业之路。到现在,我们的团队已经有 30 多人,越做这个方向就越觉得缺人,现在还在招人。

《新程序员》:从 3 人到 30 多人,体量发展还是很不错的,在团队增长上是怎么考虑的,是否会比较在意人才密度?

关超宇:我们觉得这个岗位真的有必要招新人进来才会招,会做严格的筛选,有一定的入职门槛。这个行业对专业度有着比较高的要求,如果一个新人进来需要长周期的培训,对创业公司而言是极为耗时的。现在团队正在扩张的原因是,很多项目已经到了落地、交付阶段,我们的商业模式还没有完全定型,做定制化的交付项目,确实是需要人力投入。

《新程序员》:定制化项目意味着成本会更高。

关超宇:对,它不是标准化的产品,我们做的是软件 toB 类的,客户在产品上会有很多自己的想法,也需要实打实的投入。

1d32cb3a4d1612770909db14da5b0a91.png

天天都在遇难题,技术只是创业的敲门砖

《新程序员》:创业至今有什么心得体会,自己遇到的最大难题或挑战是什么?

关超宇:我现在的理解和刚创业时是完全不一样的。最开始时想法很简单,我们有技术,能做出性能最好的产品,交给客户就完事了。还没有想过要做多大、怎样完成,当时是没有认真思考的。现在一路走来,发现技术其实只是创业的敲门砖,往后更多拼的是什么?一方面是怎么定义一个好的产品,怎么做标准化、规模化,就是回归商业本质,怎么用最少的成本,获得最大的利益。如果还以完全项目制的方式做,可能并不是长远可持续的。

另一方面,是战略上的考量,包含选择的维度和标准,我们做的是很细分的赛道,但在这之下有更细分的,如何去排优先级?比如 AIGC 的性能优化,就有很多不同的模型、架构,底层有各种各样的国产、边端硬件,都需要排优先级。这些优先级其实就决定了是一个怎样的市场和增长。

还有公司的愿景和目标,我们的终局市场,5 年、10 年之后公司应该是个什么样子、会有什么样的业务?这都是做好一个公司需要思考的问题。还有更实际一点的,包括内部的人员管理、组织管理、项目进展的管理以及与客户的沟通等等,每个细节都要做好。我感觉创业是一件需要敬畏的事情,一旦选择去做,就必须要把每个环节做到起码没有短板。

挑战和难题则太多了,每天都在遇到。我们现在需要交付的项目很多,如何管理每条线的进度,关于这个问题我们内部一直在开组织纪律会。同时,团队人数上来了,大家如何配合来一起完成项目,也会存在问题。如果问题出现,该如何公平地解决。之前我们都没有 KPI、OKR 的指标,现在也在逐步实践。

《新程序员》:所以还是在团队协作和项目管理上的挑战,技术上是没有遇到难题吗?

关超宇:技术上的话,可能我是技术出身,感觉技术上的挑战相对来讲没那么难,通过研讨、调研,都是可以找到出路的。

《新程序员》:在技术的基础上,要去考虑产品、商业模式、团队、融资,和不同维度的人打交道,你觉得自己有短板吗?

关超宇:我其实还挺有短板的。如果只有我一个人,那么我是做不好创业的,一路走来非常感谢支持我的团队,包括姚航和陈虹。我更偏技术,做技术带队、未来方向的研判,我是擅长的。但在对外沟通上,我其实还是挺内向的一个人,虽然有点不情愿,但我是公司的一号位,也是要出面去做一些沟通。而航哥则是个非常外向的人,喜欢与人沟通,所以我的短板刚好也是与团队互补。

《新程序员》:听下来其实你会更希望在技术上立足好,朱文武老师的参与度是怎样的?

关超宇:朱老师更偏学术,一方面给公司背书,另一方面提供学校更前沿技术的研究支持,他在业界的影响力也有一些商业资源的导入。朱老师是大后方的支援型角色,一线的产品构建、客户交付的事不是深度参与的。的确,我目前是一个半技术半商业的角色,需要统筹战线。我们现在也在物色一个更偏商业的 CMO 的角色。

d3b24dbf5796437e311813321fc28d5d.png

从技术研发到价值实现,寻找 Product Market Fit

《新程序员》:创业以来,团队实现了哪些重要的成果与进展,今年团队的重点工作集中在哪里?

关超宇:我们现在把自动机器学习的思想用到做推理 Infra 上去。可以称之为里程碑式的进展是,去年我们在英伟达和 AMD 的平台上构建起了端到端的推理系统,同时近期我们商业化的产品也会陆续发布,在国产芯片上适配完成的产品、面向数据中心的算力平台的产品也在逐渐成熟。

去年我们的重点更多是在研发层面,今年已经在找合适的商业模式,围绕怎么创造价值去展开工作。去年 7 月份的里程碑还是偏向文生文的语言模型架构,今年我们会在文生图、文生视频的领域去做产品特性的补充。AI Infra 总是要围绕硬件和模型做产品上的迭代,也需要响应客户的新需求。

《新程序员》:您在产品矩阵的构建逻辑与思考是怎样的?

关超宇:创业最开始,一个前辈说的话让我觉得很有道理,其实奇绩创坛传达给我们的信息也是一样,就是创业一定要找到 PMF(Product Market Fit,产品市场契合点)。如果说我想做一个产品就要投入人力物力去做,做完之后再去找市场,这样会浪费很多精力。我们也思考过很多产品形式,做出来了,但在市场推广的时候遇到问题,特别是去年上半年到年中,大模型的应用场景其实大家都还没想明白,客户有的时候并不需要平台,而是解决方案。我们需要先帮客户搞明白产品能用在哪里、场景是什么,目前客户需求上还没有到需要不断迭代探索的阶段。

在 ToB 的交付,我们还是偏一体化的模式。大模型的常规就是工程化构建的流程,至少在英伟达上是有对标这个方案的技术,但国内厂商其实缺乏这样的一环。所以像数据中心这种平台,如果企业要把国产卡用起来,是缺乏适配路径的,所以我们的商业化思路就是往这方面去推,已经在跟一些数据中心和云厂商围绕这样的产品做落地了。

产品矩阵上大概分为三层。最底下是硬件,围绕硬件也有推理器的产品,就是结合友商的硬件加上我们的软件,为客户提供推理上的一个端到端的服务,这块我们交付给了一些垂类 AI 的公司,他们把自己的模型放在推理器上。再往上,就是纯软部分,我们有类似于 SDK 镜像封装的产品,比如交付给云厂商,云厂商在云商店或者 MUD 服务里直接集成了工具栈,我们按照算力分成或者按照授权费实现商业化。

最上一层的平台,更偏向 PaaS 的属性,集成在企业自己的算力中心、数据中心,以及正在构建的计算中心场景。

我们的产品就是这三个层级,我们核心的还是在面向不同的硬件构建的统一的推理技术栈,也就是 MLGuider(面向多芯片的统一推理框架)。

《新程序员》:在创业中有没有一些经历波折又改进的例子可以分享?

关超宇:工程化这个领域跟模型研究领域还不太一样,模型上各种因素都会影响最终结果,不确定性多一点,工程化这块儿相对来讲比较确定性。比如做算子融合或者说做优化,它能够实打实降低延迟,就是减少了一部分数据搬移。我们更多是用自动机学习这套思路来去完成不同卡的一个就是调优,面临的问题是一个问题会有多个解法,这些解法可能都会带来增益,但哪个是最好的,是需要做判断的。比如,我们在算子优化的不同阶段用两个计算图的话会很慢,把两个计算图融合在一起就会提升效率。

《新程序员》:目前你了解的有哪些同样在做 AI Infra 的团队,你认为大家的区别和侧重点分别是什么?

关超宇:从我目前得到的信息来讲,潞晨科技是做得比较成熟的,他们一直专注于训练,在大规模的分布式的系统上的优化经验和成果比较突出的,近期也是有一些推理的技术栈出来。在推理业务上,无问芯穹也是清华电子系非常有名的团队。我之前和汪玉老师(清华大学电子工程系系主任、无问芯穹创始人)聊过,他们现在更偏向于重资产类型的投入,会有自己运营的算力中心,未来会朝着硬件化的方向,拥有自己的推理硬件及模型。我觉得他们是在展开做更大的事情。

袁进辉老师也在创业做新公司硅基流动,特别围绕英伟达相关的优化,也在做商业化落地,最近也看到了一些国产芯片。

还有两个团队,一个是中科加禾,是中国科学院出来做编译器层面的团队,旨在解决底层逻辑不一样的情况下如何做好迁移的问题。

清华高性能所也出来了一个团队,叫清程极智。他们的技术思路也是更偏编译器这层,而商业化有点像无问芯穹,也是承包商业中心的建设,去做训练、推理,提供围绕国产芯片的训练推理平台。另外还有基流科技(创始人胡效赫毕业于清华大学)聚焦网络优化,也是一个非常不错的团队。

《新程序员》:和你们比较像的是哪家公司?

关超宇:跟我们商业化思路比较像的是袁进辉老师的硅基流动。袁老师从英伟达入手,我们从创立开始其实一直在跟 AMD 合作,在 AMD 的适配上做了很多工作。我们国产化硬件的打法是先打标杆。和昇腾合作,目前我们推理的工具链已经适配了昇腾的全系产品,还有对大语言模型的支持,现在主要还是以 Transformer 架构的模型为主。

《新程序员》:在昇腾生态里,你们所带来的效益主要是在哪方面?

关超宇:我们跟昇腾的合作会更偏底层,MindFormers、MindSpore、PyTorch NPU 是可以支撑用户在上面把任务跑起来,但面临的问题是,由于这些框架它们本身并非 AIGC 原生,导致对 AIGC 模型效率的支持并不好。如果直接跑的话,效率可能和主流相比偏低。我们在昇腾生态里做的事情其实就是希望在 AIGC 的范畴内,构建一种更标准化、通用化的解决方式,让适配国产更便捷和顺滑。让用户不需要用 A 卡时必须要用 A 的工具栈,B 卡必须用 B 的工具栈,因为这对用户而言是一件非常麻烦的事情。

3b6658f527f796cf048afe3b803b16dc.png

现在的大模型,好比做英语完形填空的我

《新程序员》:当前在 AI 算力上,英伟达的垄断性生态很强,为什么没有选择与英伟达合作?

关超宇:我们的判断是,从目前的情况来讲,英伟达的垄断程度在下降。我们立足的还是国内的市场,国内需要做的是如何让国产卡更好用起来。无论是商业层面上,还是情怀也好,都是更紧迫的事。

《新程序员》:怎么观察到英伟达的垄断程度在下降?

关超宇:至少从我们目前优化过的一些经验来看,只说推理这块,目前市场上大家比较认可的英伟达推理方案,更多还是 4090 这种消费级显卡产品。

我们现在观察到的是,AMD 也在逐渐追赶,其最新的一些消费级产品,已经能够从性价比上追平甚至超过 4090 了。

AMD 与英伟达的差距是缺乏软件栈这一层,毕竟英伟达积累多年,短期内没法赶上。但从硬件指标以及成本控制上,未来不管是国际还是国内,肯定都会倾向更多元化的选择,特别是推理。

虽然说从绝对性价比上来看,国内的显卡还处在追赶阶段,但这是一个机遇,现在模型的架构正在收敛,都是围绕 Transformer 的架构做变化。对硬件来讲,其实有一个更好的标的去在硬件架构上做调整和优化。

《新程序员》:你对大模型架构演进的看法是怎样的?

关超宇:Transformer 证明了它的 scaling 的能力。虽然现在还有一些新的架构再出来,其实还是缺少在 scaling 层面上去验证的一个能力,但我也不认为 Transformer 就是最后的架构。整个 AGI 是否仅通过 scaling 就能解决其实还是一个问题。目前 Transformer 架构只是一个次优解,它可能优于邻域的架构,但我觉得应该不是最终、最重要的一个 key。比如很难想象光靠这个架构就能把逻辑推理的能力编译进去,我观察目前的阶段还属于纯概率建模,我觉得大模型逻辑推理的功能,还是得结合贝叶斯推断等一些方法去实现。

《新程序员》:我听业内人士讨论说,不解决推理就无法通往 AGI。你对这个的见解是什么样的?

关超宇:中文的推理,在英语里其实有两个词,一个是 Inference,一个是 Reasoning。Inference 就是我们现在在做的推理,是在解决计算效率的问题。Reasoning 的意思是逻辑推理,比如说我给大模型一道数学题,然后它可以基于数学逻辑来解答。Reasoning 是一个算法的问题,Inference 是一个工程问题。我觉得 Reasoning 是通往可控 AGI 的必经之路。如果模型没有 Reasoning 的能力,其实是不可控的,是纯靠上下文的概率去建模。

Scaling Law 让部分模型在一些场景上具有推理能力,还是因为它见得足够多了,就大概知道如何去做。我觉得现在的 scaling 有点像我做英语完形填空的状态,只要见得足够多,就能靠语感来去做题。现在的大模型也有点像凭借语感来去做题,然而现实的一些问题的解决,很多情况下不能靠语感。

所以除了 Scaling Law 之外,一定还有其他的方式可以让推理能够结合 Reasoning 的能力。我觉得这个是一个非常重要的研究方向。其实两者也不矛盾,就是靠语感并且依靠推理,现在有很多 selfthink 或者 selfreact 的方式来去让两者互相结合。我觉得最终应该是两个能力之间的结合——要么底层模型模块有推理能力,要么就是上层有推理能力,应该是一个结合的状态。

cae3b14c380483c43c9f1ad12c5f5ef7.png

结语

“AI 教母”李飞飞曾说,找到自己的“北极星”是最重要的,这是一种内在的指引和自我驱动。关超宇正在凭借自己的北极星指引,一步一步实现自己的“钢铁侠”之梦。纵然并不能完全成为现实,但他深知自己努力的价值,与团队一起,打破算力瓶颈,厚德载物,自强不息。

注:本文仅代表个人观点。

3dbf92c63eba2e6a598f4811fd7b03d3.gif

有这样一群人,正在通往 AGI 之路的技术、应用上埋头深耕,改写着未来的轨迹。相比焦虑,他们或更为兴奋于挑战无人之境、或是更为务实稳步前行。天马行空与脚踏实地之间,他们既是技术的探索者,也是梦想的实现者,推动着通用人工智能从科幻走向现实。在此背景下,CSDN、《新程序员​​​​​​​》特别策划了《AGI 技术 50 人》访谈栏目,旨在深入那些在 AI 领域不断探索、勇于创新的思想领袖和技术先锋们的心路历程,分享一路摸爬滚打的实践与趟坑经验,拨开大模型的层层未知迷雾,一起共同谱写 AGI 的未来。

欢迎有意参与《AGI 技术 50 人》的伙伴与我们联系,一起探索 AI 背后的无限可能,聆听那些塑造未来的声音,让我们在“AGI 技术 50 人”的旅程中,感受技术的力量,一起奔赴这未知而令人心驰神往的 AGI 未来。

66e8dcdc295b6a0e8c3961ed8845f2d2.png

  • 12
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值