智源林咏华:大模型的竞争,差距核心在数据 | AGI 技术 50 人

【编者按】在《AGI 技术 50 人》系列访谈中,我们有幸与北京智源人工智能研究院副院长林咏华深入对话,探索中美在 AI 大模型技术领域的差距与挑战。林咏华,这位技术领域的杰出女性,从儿时对游戏的别样热爱到成为 IBM 中国研究院首位女性院长,再到智源的总工程师,她的成长历程本身就是一部生动的科技探索史。本文不仅揭示了数据在大模型发展中的核心地位,还深入讨论了多模态大模型的突破、开源与创新的平衡,以及 AI 技术的未来趋势。林咏华以其独特的视角和深刻的见解,为我们呈现了一个充满挑战与机遇的 AI 世界。

作者 | 唐小引、郑丽媛

出品丨AI 科技大本营(ID:rgznai100)

9aead3137f6384e5ae5f753ca4ffa6a4.png

2022 年底,ChatGPT 的出现骤然搅乱了科技圈。短短几个月的时间,国内多位技术大牛陆续宣布出山创业,全力押注 AI 大模型,由此开启了人才抢夺大战。中国大模型创业界里有多位关键人物,如唐杰、刘知远、黄民烈、杨植麟等人,都有一个共同点——来自智源的「悟道大模型」项目。

在 2022 年初,原 IBM 中国研究院院长、加入智源人工智能研究院担任总工程师的林咏华,恰好经历了这个巨大的浪潮。回想起那阵光景,她说:“能被称作「大模型的黄埔军校」,我们还是挺骄傲的。”

时间来到经历过百模大战的 2024 年,时维春节尾声,Google 的 Gemini 1.5 Pro 和 OpenAI 的 Sora 先后发布,世界被 Sora 席卷,风头完全盖过了 Gemini 1.5 Pro,而林咏华则同时注意到了它们,“震撼很大”,让她不由得想如何再加快速度和步伐。“美国在大模型上发展的速度实在太快了。当然中国在大模型技术方面在不断追逐和往前走,但人家也在不断拉开跟我们的差距。”

于是,智源也在不断调整战略。一方面不断加快围绕多模态大模型的自主突破的步伐,另一方面通过打造数据、评测、AI 系统等开源开放的公共技术基座,帮助整个产业加快大模型的创新。

林咏华,生于广东,与传统印象中“成功技术女性”的形象可能有所不同,林咏华对底层技术的启蒙,最初源于想要快速通关游戏的渴望,学着黑进系统改代码、改游戏运行时的内存。后来,高考那年远离广东,报考了千里之外的西安交通大学,毕业后直接进入 IBM 研究院,从研究员一路当上了 IBM 中国研究院成立以来的首位女性院长。与现在很多 AI 技术人不一样,林咏华的专业是信息与通信工程——主要进行时空二维的数字信号的研究,也会使用到结构简单的神经网络技术。加入 IBM 后,她一直从事系统领域的研究。2014 年深度学习兴起,她很自然地就把多年的系统研究背景和深度学习结合,不断在 AI 系统领域深耕。

在以上各种机缘巧合下,造就了如今的林咏华。不论是幼时的电脑游戏,还是后来在 IBM 研究院和智源从事的 AI,林咏华对底层技术的热爱,始终没有改变——唯一改变的,可能是当初那个在黑白显示器前翻阅《电脑报》、探索游戏背后机制的少女,如今有了更大的梦想:想要托起中国 AI 的技术基座,给予全力向前冲的创新者们最大的底气与支撑。

本期《AGI 技术 50 人》,我们在五道口智源大厦这座标志性的橙房子里,与林咏华进行了一次面对面的深入对话,一起聊她那充满机缘与波折的技术人生,和在大模型波谲云诡求突破的当下,智源行进的路线以及对于 AGI 发展的深入思考。

为了玩游戏,意外启蒙对底层技术的热爱

《新程序员》:之前听您提到过,您母亲买了台 286 的兼容机对您影响很大,那是您第一次接触编程吗?

林咏华:不是,我最早接触编程应该是小学五六年级的时候,在少年宫。那时我每周只能在有限的时间里,在少年宫里用 Apple II 学 LOGO 语言,就是那个小海龟,蛮有趣的。后来还在中华学习机上学习了 C 语言编程。

《新程序员》:那 286 是?

林咏华:286 是到我初二时,母亲给我买的。那时学校里并没有电脑课,我就一期不落地买那个很厚一沓的《电脑报》来学,从头翻到尾。主要当时 286 有两个问题,一是内存不够,只有 640K 的基础内存和 384K 的扩展内存,二是电脑屏幕是黑白的。所以我就看《电脑报》,学着怎么去虚拟一些更多内存出来、怎么装一些软件、怎么让一台黑白电脑去仿一些真彩。

《新程序员》:基本上只通过《电脑报》,还是说也有买一些其他的技术类书籍?

林咏华:我记忆中是《电脑报》多一些。因为当时年龄小,没想过要系统性地选哪一个语言,书籍类的没太多印象,实际上我都有些忘记那些编程是怎么学的了(笑)。至于《电脑报》,我也不是为了学编程去看的,当时主要是想玩游戏,但机子实在太低配,所以才去研究怎么 hack 能把彩色游戏玩起来,让需要更大内存的游戏能够跑起来。

后来能玩游戏之后,我又没耐心把游戏玩完,就学着去改内存,经常把血量改得很高、钱改得很多之类的,像《大航海时代》我就靠不断地 hack 全部玩通关了。但这也导致了我很快就对游戏失去兴趣了。

《新程序员》:可能更多是享受改游戏的过程。

林咏华:对,我其实更享受改游戏的乐趣。这也培养了我进入 IBM 之后,一直做的都是 AI 系统,这种很底层的操作系统和技术。我后来对这些东西的喜好,其实都源于最初的自己。

《新程序员》:所以说你最开始的编程启蒙,很大程度上来自于母亲的支持?

林咏华:是的。当时的 286 兼容机,要 3000 块人民币,这是母亲半年的工资。我们家那个时候还是挺困难的,一家四口挤在一个不到 20 平米的小房子,平时都得省吃俭用。但妈妈对我和姐姐的培养十分用心,在那个绝大多数人都不知道电脑为何物的年代,愿意为了培养我的兴趣,给我买这样一个“奢侈品”。为了进一步让我能“学以致用”,母亲还在我高中时买了一台能直接打印 A3 纸的爱普生打印机。你要知道当时才 1995 年,那么大一台打印机得几千块钱。

那时电脑刚开始普及,我妈妈要去一家酒店当财务主管,就想着能不能用电脑来帮她记账、发工资等等。她对电脑一点都不懂,也不知道这是否可行,很异想天开地问我能不能帮她做一套这样的软件,自动生成财务报表、自动生成工资单。我感兴趣尝试做出这样的工具。于是就一边准备着高考,一边自学用 FoxBASE(一个数据库管理系统)开发了一套财务管理软件,帮她记账和发工资。买那台爱普生打印机,也是为了能打印当时那种长长的工资条。那是我人生中第一次系统性地实现一套软件。

这段中学的经历,让我比同龄人都更早拥有编程的能力,也培养了我一生的兴趣,就是编程。我真的很喜欢编程,哪怕到了现在,一旦有空,我都会去寻找一些新的开源项目去尝试、给自己一些编程实现新想法的机会,我很享受这个过程,甚至会把它作为一段忙碌过后对自己的“犒赏”。

大模型之战,中美差距主要在于“数据”

《新程序员》:最近主要在忙什么?

林咏华:从更长远的角度来看,我们在考虑怎样帮助整个产业去做更多技术上的突破,帮助大模型产业在中国更快、更稳、更好地落地。在这一过程中,势必将面临算力、数据、算法和评测等方面的挑战,对此我们都进行了深入的梳理。

目前美国在大模型上发展速度很快。当然中国在大模型技术方面也在不断追逐和往前走,但人家也在不断拉开跟我们的差距。在这之中,我最大的感想是要如何继续保持一个充足的信心和干劲。尽管人家做得很快,但我们也要想着让自己的步伐更快,去继续拉近跟他们的距离。否则的话,中美之间的技术差距就会有可能会越来越大。

《新程序员》:之前你也提到过关于国内步伐以及与美国的差距,也考虑到了很多问题,有什么解决方案吗?

林咏华:其实每个技术或产品出来,我们都会思考,三驾马车里哪一架马车又明显拉开差距了。三驾马车,主要是算力、算法和数据,我觉得每一次的冲击都不一样。

以 Sora 为例,我看到更大的差距是在数据上。首先,从大家的分析以及一些反向工程的讨论来看,Sora 对算力要求高,但并没有到高不可攀的程度,它所需要的算力整体在一个合理范围内。其次是算法,包括智源在内的各种不同团队都在分析 Sora 使用的算法,而我们并不觉得它跟大家拉开了一个等级。智源本身也一直在做多模态大模型,我们在去年年底发布的 Emu2 多模态模型中,也已经实现了文生视频,而且是把视频理解、图片理解、文生图、文生视频多种能力实现在同一个模型中。因此,在算法方面可以说是中美齐头并进。

然而,这次的 Sora 我们可以看到一个很明显的数据差距。不论是大家看到的高质量的视频生成,还是长达一分钟、前后一致的视频输出,归根结底本质就是海量的高质量视频数据。我们有没有海量的、如此高质量的、一定长度的视频,可以用于模型去学习?不得不说,这是差距比较大的一个部分。

当然很多人会想到,咱们国内有很多短视频平台,互联网平台上也有大量的短视频,不能用吗?我觉得,想要训练一个具备初步模拟世界能力的大模型,并不能全靠这类短视频的。Sora 能有今天这个效果,能生成这样高质量的视频,其实就是一个大量数据的验证、收集和试错的过程。

《新程序员》:关于数据我们之前听过两个声音。一个是像您提到的整个上下文的长度,杨植麟将其形容为“登月的第一步”;另一个是面壁的曾国洋,他们也将数据驱动作为其核心竞争力的一部分,但他说长期来看数据可能没办法去形成一个很好的壁垒。对此您的看法是?

林咏华:总体来说,Sora 的出现验证了一件事:如果我们拥有同一水平的算法能力,通过大量的高质量数据,是可以把模型能力推到这样一个台阶上。所以短期内,我相信大家会通过开源或自研,开始去复现 Sora 的做法,并对此充满期待。但长期的话,我们还是需要有更多的评判。

第一,这些视频还限制在几十秒到一分钟,如果我把这个长度再拉升一个量级,那么它的技术路线是否会完全不一样?这是一个问号。

第二,虽然现在大家认为 Sora 能模拟世界,但这种模拟真的很初步。我们在每个视频都能发现它有 Bug,所以实际上它并不是真正理解了物理世界。从逻辑准确性上,如果我们要求它的准确性达到 80%或 90%甚至 95%,需要用到的方法可能就要有很大改进了,还可能要牵扯到很多派生技术。

《新程序员》:这些年在国内 AI 圈子里,涌现出了很多优秀人才,他们都在夜以继日地奋斗。但在整个大模型领域方面,我们仍始终处在一个追赶的状态,要如何破局?

林咏华:大模型方面的很多科研创新,都需要重资的投入,做一次完整的实验可能动辄要耗费上千万。这就看我们敢不敢把最激进、没被验证过的东西拿去实验,因为有可能最后几千万就打水漂了。这也是为什么相对于那些资源雄厚的企业,我们的步子迈得比较小。

对于 OpenAI 这样的机构而言,他们进行一次实验的代价可能很小,但对国内的许多科研机构来说就是一项巨大的投入。因此,这决定了我们不得不去保守地采用一些别人验证过的方法,然后在此基础上进行适度的改进。如果试错的成本很低,比如只要 1 万块钱,那我们完全可以去试一些前人从未想过的天马行空。

《新程序员》:说到人才,在这两年大模型之间,应该有不少人才从智源出去了吧?

林咏华:确实,这两年外面大模型风起云涌。像面壁刘知远、月之暗面杨植麟等很多创始人,最初都来自于我们 2021 年做悟道大模型培养出来的一批学者。我们也挺自豪的,能为国内的大模型团队输送了那么多关键的技术领导者。

《新程序员》:微软亚洲研究院之前也被大家称作「黄埔军校」,沈向洋还在 20 周年的时候说他已经释然了。那么智源对于人才流失,有纠结过吗?

林咏华:因为很多事情发生在 2022 年、2023 年,没有给予我们太多纠结的时间。现在能被称作「大模型的黄埔军校」,我们还是挺骄傲的吧。「黄埔军校」这个称呼是两面的,一面是说你培养的人才不错,另一面是说你的人才流失。但从智源本身来看,对比人才流失情况和新人才的加入情况,实际上并没有对我们造成明显影响,反而还加剧了我们人才的集聚和增长。

智源正探索多模态大模型的突破和落地

《新程序员》:关于大模型,之前业界普遍比较追求更大的算力和更大的数据集,但你一直鲜明地提出,不要光追求大规模的参数量,更要追求质量。具体原因是什么?

林咏华:大家做大模型都追求大,自然有它值得追求的地方,只是我更看重它的质量。我觉得只有当模型质量达到一定水平且通过了相关测试,它才有机会真正被应用于产业,形成一个循环迭代的过程,从而才能真正走得远。

目前大模型在实际应用中,存在幻觉或时效性等诸多问题,而企业不会采用质量无法满足需求的技术。但有些问题不能仅靠大模型本身来解决,例如幻觉问题一般是统计概率的输出,无法百分之百准确。因此,我们需要配套一些相关技术,让大模型能更好地应对这些挑战。

通常情况下,解决这些问题的方法有两种。一种是通过增加模型参数量来提高准确率,另一种是利用其他技术来解决剩余的差距。这两种方法没有绝对的对错,而我个人倾向于第二种方法,因为即使将模型参数量增加到很大,最终也只能在一定程度上提高准确率,同时各种成本也会成倍增加。

尤其是现在的多模态模型,它不像以前的语言模型,我们只要关注语言这一个模态就行了。在多模态应用中,还需要关注每个模态的质量以及模态之间的配对质量,对数据质量提出了双倍甚至三倍的要求,这也就导致了当前多模态模型的质量尚未达到产业应用的标准。

《新程序员》:这是您当前最关心的、要去解决的问题?

林咏华:很多人说,去年是整个产业研发大模型的元年,而我认为今年是大模型落地的元年。不过在这个过程中,要考虑语言模型怎样去提升它的质量、配套不同的技术,还要降低它的落地成本,这意味着要通过一些框架进行优化,来减少它在部署时候的成本。

对于智源,我们肯定要先人一步去考虑很多事情,会格外关注多模态模型的落地,到底该怎么落地,需要怎样的技术去对它进行配套等等。

AGI 真正到来之前,确定未来的发展方向

《新程序员》:在 AI 技术方面,有什么是当前大家没有关注到、但可能会在未来产生重要影响的?

林咏华:从去年开始发生了很多变化,我们能感受到很多企业或团队从狂热者变得趋于理性。他们不再拿着大模型这个锤子找钉子,不再一味追求大模型能力的可能性,而是更明白自己到底想要什么。这对于语言模型来说,是比较重要的一个变化。

至于未来,我们已经从语言模型的阶段发展到了多模态模型,下一步的发展方向是如何将多模态模型应用到真实的物理世界中。作为一名长期从事 AI 工作的人,我一直期待着能利用大模型来进行复杂的视频场景分析。而为什么说多模态模型很重要,就是因为它能够去理解视频。

当然现阶段来说,Sora、Gemini 等对视频的分析仍局限于描述或识别画面中的内容,但我认为未来大模型将能分析更多结构化的信息,做到 video to action,这将是一个巨大的突破。

《新程序员》:也就是说,今年是多模态的关键一年,之前 Sam Altman 也说过这会是核心关键。那么接着后面的 2025 年甚至未来几年,又会有什么方向吗?

林咏华:我觉得多模态大模型还有许多未能解决的问题,包括如何能大幅提升模型理解图片和视频中的细节的准确率、如何更可控地生成长视频内容。这些关键问题在现有的模型架构上,或许还需要创新才能有明显突破,我猜想的时间是得到明年了。

另一个脱离不了的重要问题是,如何提高大模型的推理效率。按照大模型当前的处理能力和处理时延,会限制它在许多场景中的应用。相比起工业场景,机器人领域所需要的时延相对没有那么严格。但即便如此,如果将一个如此庞大的大模型应用到机器人的脑袋中,它的处理速度可能还是无法满足机器人所需的实时交互。这个问题十分重要,我们可能需要将模型处理时间提速上百倍甚至千倍。一旦能够实现这一目标,将会带来巨大的经济效应。

《新程序员》:今年以来大模型的开源有许多争议性的问题,比如套壳,身在局中的你,觉得有哪些误区是非常致命、需要避免的?

林咏华:首先我觉得,大模型绝对要站在前人的基础肩膀上继续往前走。这也是如今大模型能快速发展的原因之一,如果每家企业都从头训练自己的模型,这将是大量的资源消耗和重复造轮子。所以,基于别人开源的模型做进一步迭代,应该是被鼓励而不是指责。当然,既然站在别人的肩膀上往前走,那就清清楚楚地定义就好了。

比如像 Yi 开源大模型,他们在框架设计和算法上借鉴了前人的成果,但是重新训练了模型,从我的角度来看,这并不算是套壳。他们为此还投入了大量算力和重新打造了训练数据。

在我看来,自主创新并不是去一味苛求从底到上全部自主实现,因为你总会碰到某些算法或算子是别人研发的。在符合开源协议的情况下,基于开源项目继续前行是值得鼓励的。这样做不仅能加快产业发展的步伐,还能避免重复造轮子和资源浪费。因此,我们不仅要鼓励开源,还要鼓励使用开源项目,这样生态系统才能良性循环。

《新程序员》:DeepMind CEO Demis Hassabis 曾说,Google 之前模型闭源是因为担心恶意行为者使用的风险和可能性,后来 Gemma 开源是因为它是轻量级的小模型,没有大风险。对于这个说法,你怎么看?

林咏华:去年关于这个问题的讨论就很多,而我认为这符合一定的逻辑性。举个例子,假设我开源了一个 20 亿参数的模型,又开源了一个千亿参数的模型。即使这两个模型在开源时的智力水平上相同,但它们的二次学习能力完全不同,其中千亿参数的模型具有更强的二次学习能力。

因此有些人会担心,如果有人恶意让这些模型学习一些不好或有目的的数据,千亿参数的模型会学得更好。这种担心具有一定逻辑性,并非无稽之谈,但也没有绝对的对错,因为所有的技术都有可能被恶意使用——如果因为某种技术可能被恶意使用或造成危害而拒绝开源,那么几乎所有技术都不能开源。

《新程序员》:你觉得 AGI 实现的核心标志是什么,以及我们距离 AGI 还有多远?

林咏华:说实话,我并没有认真想过。我对 AGI 一个粗浅的想法是,它能去做任何我们想象不到的事情——既然想象不到,所以我也没有特别考虑过这个问题。相比之下,我更愿意思考大模型能如何更快迭代到真实的物理世界或产业里去、处理效率如何更高、可能需要付出的技术或机会在哪里等等。

科技领域的女性发展

《新程序员》:你这些年来尤为关心女性本身,也经常在非本职的业余时间去参加相关的女性活动,可以聊聊你的一些实际经历吗?

林咏华:其实在我的成长过程中的确遇到过一些事情,让我感觉到,有时候同样的一个机会,女性想要得到会更不容易。

举个例子,我在大四的时候是年级第二名,有了保研资格,接着我就要去找导师。我选了一个学术很好的严师,查了他办公电话后打了过去,这位老师知道我的来意后,给我的第一句话就是他一般优先招男同学。幸运的是,他还提到,“如果你想来,正好我这边需要完成一个事情,你可以过来先试一试。”

我知道,这位老师可能对女生的动手编程能力没有信心,但这又是做出优秀科研成果所必须的能力。所以我前后花了近两个月的时间,期间还临时自学了 C++,按照要求完成了老师给的一个文件处理相关的任务,最终成功被录用了。

在过去这么多年的职场发展,我经常会想起这件事情。在我看来,在很多同等的条件下,并不是女性不够优秀,而是给到她们的机会就会本来就会少很多。这也是触动我后来举办 IEEE Women in Engineering 等女性活动的主要原因。

《新程序员》:截至目前,已经是女性奋斗百年的历程了,有可能再奋斗个百年大家就能实现将此作为一件平常事来对待了。

林咏华:希望如此。说起来有一阵子我对智源还挺自豪的,当时智源内部 AI 系统、AI 大模型评测、语言大模型团队的负责人都是女性。这让我有一种感觉,只要你愿意给予一个同样的机会,很多时候女性做得一点都不比男性差。

写代码是多年保持技术敏感性的法宝

《新程序员》:有一个今年 AI 圈里挺流行的问题,你典型的一天是怎么度过的?

林咏华:7 点把孩子送到上学,7:15 开车到公司,然后工作到 9 点,这是我的黄金时间,期间我会尽量多处理一些当天要完成的事情。9 点开始我就要开很多的会,基本就一直到晚上 6 点,之后就是我自己的时间。

我一天最享受的时候,就是趁着不开会也不用赶 PPT 的间隙,去写一些代码、看一些论文。有时在网上看到有些相关的技术开源了,我都会特别高兴地去下载和尝试。我会把这个作为对我自己的一个奖赏,因为我特别喜欢写代码。

《新程序员》:那你上一次写代码是在什么时候?

林咏华:我在假期期间写了一个 Agent。我觉得 Agent 不是纯粹由语言模型来扮演的,而是需要跟它有一个很好的平衡,否则会对整个安全系统产生很多问题,所以当时就弄了一个 Agent。最近,我在尝试由 Saining Xie 团队开源的 Cambrian-1 多模态大模型。这个模型很有特点,是在 vision encoder 这一层,尝试使用多个能力各有特点的 encoder 进行融合,从而提升多模态大模型的视觉表征能力。但这个模型当初是在 TPU 上面训练,没有开源基于 CUDA 的版本。我正在进行移植,尝试在英伟达的 GPU 上实现训练。

至于平时的话,由于我的时间很难保证,总是会被拉到各种会上,所以很多时候我写代码或者尝试一些新东西,是为了保持高度的技术敏感性,这对在高科技领域做好技术管理和技术判断十分重要,这也是我多年形成的技术习惯了。

坦白说,我们汲取最新技术信息的途径,首先是科技媒体的报道,第二是看论文,第三是代码。而我觉得最终还是需要接触代码的,只有完整试过这个东西,你才能知道这篇文章缺了什么或说错了什么。

《新程序员》:我们这代程序员可能受从小写代码的影响较多,很早就开始去接触编程了。但现在 AI 发展下,编程几乎成为一个工具,对于 10 后来说,他们的编程启蒙应该是一种怎样的形态?

林咏华:以我观察的我女儿为例,现在对他们来说,并不需要完整地去学完一门语言才能开始去做某些事,而是看他们自己想做些什么事情,然后哪里不会就学,实在不行就问 GPT。

我也经常问我自己,像他们这一代还需不需要很完整地去学编程。我的答案是——边走边看。很多时候我都先鼓励他们有自己的想法,确定想做一个什么东西出来、为什么要做这个,我觉得这比怎么做出来可能更重要。

992381f9872f5b541d393da0dc6dbd5e.gif

大模型刷新一切,让我们有着诸多的迷茫,AI 这股热潮究竟会推着我们走向何方?面对时不时一夜变天,焦虑感油然而生,开发者怎么能够更快、更系统地拥抱大模型?《新程序员 007》以「大模型时代,开发者的成长指南」为核心,希望拨开层层迷雾,让开发者定下心地看到及拥抱未来。

读过本书的开发者这样感慨道:“让我惊喜的是,中国还有这种高质量、贴近开发者的杂志,我感到非常激动。最吸引我的是里面有很多人对 AI 的看法和经验和一些采访的内容,这些内容既真实又有价值。”

能学习到新知识、产生共鸣,解答久困于心的困惑,这是《新程序员》的核心价值。欢迎扫描下方二维码订阅纸书和电子书。

916452333a806e6e7d26010666bcd0bc.jpeg

评论 12
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值