智源林咏华：大模型的竞争，差距核心在数据 | AGI 技术 50 人

AI科技大本营

已于 2024-08-19 09:13:34 修改

阅读量1w

点赞数 17

文章标签： agi

于 2024-08-14 11:06:52 首次发布

本文链接：https://blog.csdn.net/dQCFKyQDXYm3F8rB0/article/details/141217428

版权

【编者按】在《AGI 技术 50 人》系列访谈中，我们有幸与北京智源人工智能研究院副院长林咏华深入对话，探索中美在 AI 大模型技术领域的差距与挑战。林咏华，这位技术领域的杰出女性，从儿时对游戏的别样热爱到成为 IBM 中国研究院首位女性院长，再到智源的总工程师，她的成长历程本身就是一部生动的科技探索史。本文不仅揭示了数据在大模型发展中的核心地位，还深入讨论了多模态大模型的突破、开源与创新的平衡，以及 AI 技术的未来趋势。林咏华以其独特的视角和深刻的见解，为我们呈现了一个充满挑战与机遇的 AI 世界。

作者 | 唐小引、郑丽媛

出品丨AI 科技大本营（ID：rgznai100）

2022 年底，ChatGPT 的出现骤然搅乱了科技圈。短短几个月的时间，国内多位技术大牛陆续宣布出山创业，全力押注 AI 大模型，由此开启了人才抢夺大战。中国大模型创业界里有多位关键人物，如唐杰、刘知远、黄民烈、杨植麟等人，都有一个共同点——来自智源的「悟道大模型」项目。

在 2022 年初，原 IBM 中国研究院院长、加入智源人工智能研究院担任总工程师的林咏华，恰好经历了这个巨大的浪潮。回想起那阵光景，她说：“能被称作「大模型的黄埔军校」，我们还是挺骄傲的。”

时间来到经历过百模大战的 2024 年，时维春节尾声，Google 的 Gemini 1.5 Pro 和 OpenAI 的 Sora 先后发布，世界被 Sora 席卷，风头完全盖过了 Gemini 1.5 Pro，而林咏华则同时注意到了它们，“震撼很大”，让她不由得想如何再加快速度和步伐。“美国在大模型上发展的速度实在太快了。当然中国在大模型技术方面在不断追逐和往前走，但人家也在不断拉开跟我们的差距。”

于是，智源也在不断调整战略。一方面不断加快围绕多模态大模型的自主突破的步伐，另一方面通过打造数据、评测、AI 系统等开源开放的公共技术基座，帮助整个产业加快大模型的创新。

林咏华，生于广东，与传统印象中“成功技术女性”的形象可能有所不同，林咏华对底层技术的启蒙，最初源于想要快速通关游戏的渴望，学着黑进系统改代码、改游戏运行时的内存。后来，高考那年远离广东，报考了千里之外的西安交通大学，毕业后直接进入 IBM 研究院，从研究员一路当上了 IBM 中国研究院成立以来的首位女性院长。与现在很多 AI 技术人不一样，林咏华的专业是信息与通信工程——主要进行时空二维的数字信号的研究，也会使用到结构简单的神经网络技术。加入 IBM 后，她一直从事系统领域的研究。2014 年深度学习兴起，她很自然地就把多年的系统研究背景和深度学习结合，不断在 AI 系统领域深耕。

在以上各种机缘巧合下，造就了如今的林咏华。不论是幼时的电脑游戏，还是后来在 IBM 研究院和智源从事的 AI，林咏华对底层技术的热爱，始终没有改变——唯一改变的，可能是当初那个在黑白显示器前翻阅《电脑报》、探索游戏背后机制的少女，如今有了更大的梦想：想要托起中国 AI 的技术基座，给予全力向前冲的创新者们最大的底气与支撑。

本期《AGI 技术 50 人》，我们在五道口智源大厦这座标志性的橙房子里，与林咏华进行了一次面对面的深入对话，一起聊她那充满机缘与波折的技术人生，和在大模型波谲云诡求突破的当下，智源行进的路线以及对于 AGI 发展的深入思考。

为了玩游戏，意外启蒙对底层技术的热爱

《新程序员》：之前听您提到过，您母亲买了台 286 的兼容机对您影响很大，那是您第一次接触编程吗？

林咏华：不是，我最早接触编程应该是小学五六年级的时候，在少年宫。那时我每周只能在有限的时间里，在少年宫里用 Apple II 学 LOGO 语言，就是那个小海龟，蛮有趣的。后来还在中华学习机上学习了 C 语言编程。

《新程序员》：那 286 是？

林咏华：286 是到我初二时，母亲给我买的。那时学校里并没有电脑课，我就一期不落地买那个很厚一沓的《电脑报》来学，从头翻到尾。主要当时 286 有两个问题，一是内存不够，只有 640K 的基础内存和 384K 的扩展内存，二是电脑屏幕是黑白的。所以我就看《电脑报》，学着怎么去虚拟一些更多内存出来、怎么装一些软件、怎么让一台黑白电脑去仿一些真彩。

《新程序员》：基本上只通过《电脑报》，还是说也有买一些其他的技术类书籍？

林咏华：我记忆中是《电脑报》多一些。因为当时年龄小，没想过要系统性地选哪一个语言，书籍类的没太多印象，实际上我都有些忘记那些编程是怎么学的了（笑）。至于《电脑报》，我也不是为了学编程去看的，当时主要是想玩游戏，但机子实在太低配，所以才去研究怎么 hack 能把彩色游戏玩起来，让需要更大内存的游戏能够跑起来。

后来能玩游戏之后，我又没耐心把游戏玩完，就学着去改内存，经常把血量改得很高、钱改得很多之类的，像《大航海时代》我就靠不断地 hack 全部玩通关了。但这也导致了我很快就对游戏失去兴趣了。

《新程序员》：可能更多是享受改游戏的过程。

林咏华：对，我其实更享受改游戏的乐趣。这也培养了我进入 IBM 之后，一直做的都是 AI 系统，这种很底层的操作系统和技术。我后来对这些东西的喜好，其实都源于最初的自己。

《新程序员》：所以说你最开始的编程启蒙，很大程度上来自于母亲的支持？

林咏华：是的。当时的 286 兼容机，要 3000 块人民币，这是母亲半年的工资。我们家那个时候还是挺困难的，一家四口挤在一个不到 20 平米的小房子，平时都得省吃俭用。但妈妈对我和姐姐的培养十分用心，在那个绝大多数人都不知道电脑为何物的年代，愿意为了培养我的兴趣，给我买这样一个“奢侈品”。为了进一步让我能“学以致用”，母亲还在我高中时买了一台能直接打印 A3 纸的爱普生打印机。你要知道当时才 1995 年，那么大一台打印机得几千块钱。

那时电脑刚开始普及，我妈妈要去一家酒店当财务主管，就想着能不能用电脑来帮她记账、发工资等等。她对电脑一点都不懂，也不知道这是否可行，很异想天开地问我能不能帮她做一套这样的软件，自动生成财务报表、自动生成工资单。我感兴趣尝试做出这样的工具。于是就一边准备着高考，一边自学用 FoxBASE（一个数据库管理系统）开发了一套财务管理软件，帮她记账和发工资。买那台爱普生打印机，也是为了能打印当时那种长长的工资条。那是我人生中第一次系统性地实现一套软件。

这段中学的经历，让我比同龄人都更早拥有编程的能力，也培养了我一生的兴趣，就是编程。我真的很喜欢编程，哪怕到了现在，一旦有空，我都会去寻找一些新的开源项目去尝试、给自己一些编程实现新想法的机会，我很享受这个过程，甚至会把它作为一段忙碌过后对自己的“犒赏”。

大模型之战，中美差距主要在于“数据”

《新程序员》：最近主要在忙什么？

林咏华：从更长远的角度来看，我们在考虑怎样帮助整个产业去做更多技术上的突破，帮助大模型产业在中国更快、更稳、更好地落地。在这一过程中，势必将面临算力、数据、算法和评测等方面的挑战，对此我们都进行了深入的梳理。

目前美国在大模型上发展速度很快。当然中国在大模型技术方面也在不断追逐和往前走，但人家也在不断拉开跟我们的差距。在这之中，我最大的感想是要如何继续保持一个充足的信心和干劲。尽管人家做得很快，但我们也要想着让自己的步伐更快，去继续拉近跟他们的距离。否则的话，中美之间的技术差距就会有可能会越来越大。

《新程序员》：之前你也提到过关于国内步伐以及与美国的差距，也考虑到了很多问题，有什么解决方案吗？

林咏华：其实每个技术或产品出来，我们都会思考，三驾马车里哪一架马车又明显拉开差距了。三驾马车，主要是算力、算法和数据，我觉得每一次的冲击都不一样。

以 Sora 为例，我看到更大的差距是在数据上。首先，从大家的分析以及一些反向工程的讨论来看，Sora 对算力要求高，但并没有到高不可攀的程度，它所需要的算力整体在一个合理范围内。其次是算法，包括智源在内的各种不同团队都在分析 Sora 使用的算法，而我们并不觉得它跟大家拉开了一个等级。智源本身也一直在做多模态大模型，我们在去年年底发布的 Emu2 多模态模型中，也已经实现了文生视频，而且是把视频理解、图片理解、文生图、文生视频多种能力实现在同一个模型中。因此，在算法方面可以说是中美齐头并进。

然而，这次的 Sora 我们可以看到一个很明显的数据差距。不论是大家看到的高质量的视频生成，还是长达一分钟、前后一致的视频输出，归根结底本质就是海量的高质量视频数据。我们有没有海量的、如此高质量的、一定长度的视频，可以用于模型去学习？不得不说，这是差距比较大的一个部分。

当然很多人会想到，咱们国内有很多短视频平台，互联网平台上也有大量的短视频，不能用吗？我觉得，想要训练一个具备初步模拟世界能力的大模型，并不能全靠这类短视频的。Sora 能有今天这个效果，能生成这样高质量的视频，其实就是一个大量数据的验证、收集和试错的过程。

《新程序员》：关于数据我们之前听过两个声音。一个是像您提到的整个上下文的长度，杨植麟将其形容为“登月的第一步”；另一个是面壁的曾国洋，他们也将数据驱动作为其核心竞争力的一部分，但他说长期来看数据可能没办法去形成一个很好的壁垒。对此您的看法是？

林咏华：总体来说，Sora 的出现验证了一件事：如果我们拥有同一水平的算法能力，通过大量的高质量数据，是可以把模型能力推到这样一个台阶上。所以短期内，我相信大家会通过开源或自研，开始去复现 Sora 的做法，并对此充满期待。但长期的话，我们还是需要有更多的评判。

第一，这些视频还限制在几十秒到一分钟，如果我把这个长度再拉升一个量级，那么它的技术路线是否会完全不一样？这是一个问号。

第二，虽然现在大家认为 Sora 能模拟世界，但这种模拟真的很初步。我们在每个视频都能发现它有 Bug，所以实际上它并不是真正理解了物理世界。从逻辑准确性上，如果我们要求它的准确性达到 80%或 90%甚至 95%，需要用到的方法可能就要有很大改进了，还可能要牵扯到很多派生技术。

《新程序员》：这些年在国内 AI 圈子里，涌现出了很多优秀人才，他们都在夜以继日地奋斗。但在整个大模型领域方面，我们仍始终处在一个追赶的状态，要如何破局？

林咏华：大模型方面的很多科研创新，都需要重资的投入，做一次完整的实验可能动辄要耗费上千万。这就看我们敢不敢把最激进、没被验证过的东西拿去实验，因为有可能最后几千万就打水漂了。这也是为什么相对于那些资源雄厚的企业，我们的步子迈得比较小。

对于 OpenAI 这样的机构而言，他们进行一次实验的代价可能很小，但对国内的许多科研机构来说就是一项巨大的投入。因此，这决定了我们不得不去保守地采用一些别人验证过的方法，然后在此基础上进行适度的改进。如果试错的成本很低，比如只要 1 万块钱，那我们完全可以去试一些前人从未想过的天马行空。

《新程序员》：说到人才，在这两年大模型之间，应该有不少人才从智源出去了吧？

林咏华：确实，这两年外面大模型风起云涌。像面壁刘知远、月之暗面杨植麟等很多创始人，最初都来自于我们 2021 年做悟道大模型培养出来的一批学者。我们也挺自豪的，能为国内的大模型团队输送了那么多关键的技术领导者。

《新程序员》：微软亚洲研究院之前也被大家称作「黄埔军校」，沈向洋还在 20 周年的时候说他已经释然了。那么智源对于人才流失，有纠结过吗？

林咏华：因为很多事情发生在 2022 年、2023 年，没有给予我们太多纠结的时间。现在能被称作「大模型的黄埔军校」，我们还是挺骄傲的吧。「黄埔军校」这个称呼是两面的，一面是说你培养的人才不错，另一面是说你的人才流失。但从智源本身来看，对比人才流失情况和新人才的加入情况，实际上并没有对我们造成明显影响，反而还加剧了我们人才的集聚和增长。

智源正探索多模态大模型的突破和落地

《新程序员》：关于大模型，之前业界普遍比较追求更大的算力和更大的数据集，但你一直鲜明地提出，不要光追求大规模的参数量，更要追求质量。具体原因是什么？

林咏华：大家做大模型都追求大，自然有它值得追求的地方，只是我更看重它的质量。我觉得只有当模型质量达到一定水平且通过了相关测试，它才有机会真正被应用于产业，形成一个循环迭代的过程，从而才能真正走得远。

目前大模型在实际应用中，存在幻觉或时效性等诸多问题，而企业不会采用质量无法满足需求的技术。但有些问题不能仅靠大模型本身来解决，例如幻觉问题一般是统计概率的输出，无法百分之百准确。因此，我们需要配套一些相关技术，让大模型能更好地应对这些挑战。

通常情况下，解决这些问题的方法有两种。一种是通过增加模型参数量来提高准确率，另一种是利用其他技术来解决剩余的差距。这两种方法没有绝对的对错，而我个人倾向于第二种方法，因为即使将模型参数量增加到很大，最终也只能在一定程度上提高准确率，同时各种成本也会成倍增加。

尤其是现在的多模态模型，它不像以前的语言模型，我们只要关注语言这一个模态就行了。在多模态应用中，还需要关注每个模态的质量以及模态之间的配对质量，对数据质量提出了双倍甚至三倍的要求，这也就导致了当前多模态模型的质量尚未达到产业应用的标准。

《新程序员》：这是您当前最关心的、要去解决的问题？

林咏华：很多人说，去年是整个产业研发大模型的元年，而我认为今年是大模型落地的元年。不过在这个过程中，要考虑语言模型怎样去提升它的质量、配套不同的技术，还要降低它的落地成本，这意味着要通过一些框架进行优化，来减少它在部署时候的成本。

对于智源，我们肯定要先人一步去考虑很多事情，会格外关注多模态模型的落地，到底该怎么落地，需要怎样的技术去对它进行配套等等。

AGI 真正到来之前，确定未来的发展方向

《新程序员》：在 AI 技术方面，有什么是当前大家没有关注到、但可能会在未来产生重要影响的？

林咏华：从去年开始发生了很多变化，我们能感受到很多企业或团队从狂热者变得趋于理性。他们不再拿着大模型这个锤子找钉子，不再一味追求大模型能力的可能性，而是更明白自己到底想要什么。这对于语言模型来说，是比较重要的一个变化。

至于未来，我们已经从语言模型的阶段发展到了多模态模型，下一步的发展方向是如何将多模态模型应用到真实的物理世界中。作为一名长期从事 AI 工作的人，我一直期待着能利用大模型来进行复杂的视频场景分析。而为什么说多模态模型很重要，就是因为它能够去理解视频。

当然现阶段来说，Sora、Gemini 等对视频的分析仍局限于描述或识别画面中的内容，但我认为未来大模型将能分析更多结构化的信息，做到 video to action，这将是一个巨大的突破。

《新程序员》：也就是说，今年是多模态的关键一年，之前 Sam Altman 也说过这会是核心关键。那么接着后面的 2025 年甚至未来几年，又会有什么方向吗？

林咏华：我觉得多模态大模型还有许多未能解决的问题，包括如何能大幅提升模型理解图片和视频中的细节的准确率、如何更可控地生成长视频内容。这些关键问题在现有的模型架构上，或许还需要创新才能有明显突破，我猜想的时间是得到明年了。

另一个脱离不了的重要问题是，如何提高大模型的推理效率。按照大模型当前的处理能力和处理时延，会限制它在许多场景中的应用。相比起工业场景，机器人领域所需要的时延相对没有那么严格。但即便如此，如果将一个如此庞大的大模型应用到机器人的脑袋中，它的处理速度可能还是无法满足机器人所需的实时交互。这个问题十分重要，我们可能需要将模型处理时间提速上百倍甚至千倍。一旦能够实现这一目标，将会带来巨大的经济效应。

《新程序员》：今年以来大模型的开源有许多争议性的问题，比如套壳，身在局中的你，觉得有哪些误区是非常致命、需要避免的？

林咏华：首先我觉得，大模型绝对要站在前人的基础肩膀上继续往前走。这也是如今大模型能快速发展的原因之一，如果每家企业都从头训练自己的模型，这将是大量的资源消耗和重复造轮子。所以，基于别人开源的模型做进一步迭代，应该是被鼓励而不是指责。当然，既然站在别人的肩膀上往前走，那就清清楚楚地定义就好了。

比如像 Yi 开源大模型，他们在框架设计和算法上借鉴了前人的成果，但是重新训练了模型，从我的角度来看，这并不算是套壳。他们为此还投入了大量算力和重新打造了训练数据。

在我看来，自主创新并不是去一味苛求从底到上全部自主实现，因为你总会碰到某些算法或算子是别人研发的。在符合开源协议的情况下，基于开源项目继续前行是值得鼓励的。这样做不仅能加快产业发展的步伐，还能避免重复造轮子和资源浪费。因此，我们不仅要鼓励开源，还要鼓励使用开源项目，这样生态系统才能良性循环。

《新程序员》：DeepMind CEO Demis Hassabis 曾说，Google 之前模型闭源是因为担心恶意行为者使用的风险和可能性，后来 Gemma 开源是因为它是轻量级的小模型，没有大风险。对于这个说法，你怎么看？

林咏华：去年关于这个问题的讨论就很多，而我认为这符合一定的逻辑性。举个例子，假设我开源了一个 20 亿参数的模型，又开源了一个千亿参数的模型。即使这两个模型在开源时的智力水平上相同，但它们的二次学习能力完全不同，其中千亿参数的模型具有更强的二次学习能力。

因此有些人会担心，如果有人恶意让这些模型学习一些不好或有目的的数据，千亿参数的模型会学得更好。这种担心具有一定逻辑性，并非无稽之谈，但也没有绝对的对错，因为所有的技术都有可能被恶意使用——如果因为某种技术可能被恶意使用或造成危害而拒绝开源，那么几乎所有技术都不能开源。

《新程序员》：你觉得 AGI 实现的核心标志是什么，以及我们距离 AGI 还有多远？

林咏华：说实话，我并没有认真想过。我对 AGI 一个粗浅的想法是，它能去做任何我们想象不到的事情——既然想象不到，所以我也没有特别考虑过这个问题。相比之下，我更愿意思考大模型能如何更快迭代到真实的物理世界或产业里去、处理效率如何更高、可能需要付出的技术或机会在哪里等等。

科技领域的女性发展

《新程序员》：你这些年来尤为关心女性本身，也经常在非本职的业余时间去参加相关的女性活动，可以聊聊你的一些实际经历吗？

林咏华：其实在我的成长过程中的确遇到过一些事情，让我感觉到，有时候同样的一个机会，女性想要得到会更不容易。

举个例子，我在大四的时候是年级第二名，有了保研资格，接着我就要去找导师。我选了一个学术很好的严师，查了他办公电话后打了过去，这位老师知道我的来意后，给我的第一句话就是他一般优先招男同学。幸运的是，他还提到，“如果你想来，正好我这边需要完成一个事情，你可以过来先试一试。”

我知道，这位老师可能对女生的动手编程能力没有信心，但这又是做出优秀科研成果所必须的能力。所以我前后花了近两个月的时间，期间还临时自学了 C++，按照要求完成了老师给的一个文件处理相关的任务，最终成功被录用了。

在过去这么多年的职场发展，我经常会想起这件事情。在我看来，在很多同等的条件下，并不是女性不够优秀，而是给到她们的机会就会本来就会少很多。这也是触动我后来举办 IEEE Women in Engineering 等女性活动的主要原因。

《新程序员》：截至目前，已经是女性奋斗百年的历程了，有可能再奋斗个百年大家就能实现将此作为一件平常事来对待了。

林咏华：希望如此。说起来有一阵子我对智源还挺自豪的，当时智源内部 AI 系统、AI 大模型评测、语言大模型团队的负责人都是女性。这让我有一种感觉，只要你愿意给予一个同样的机会，很多时候女性做得一点都不比男性差。

写代码是多年保持技术敏感性的法宝

《新程序员》：有一个今年 AI 圈里挺流行的问题，你典型的一天是怎么度过的？

林咏华：7 点把孩子送到上学，7:15 开车到公司，然后工作到 9 点，这是我的黄金时间，期间我会尽量多处理一些当天要完成的事情。9 点开始我就要开很多的会，基本就一直到晚上 6 点，之后就是我自己的时间。

我一天最享受的时候，就是趁着不开会也不用赶 PPT 的间隙，去写一些代码、看一些论文。有时在网上看到有些相关的技术开源了，我都会特别高兴地去下载和尝试。我会把这个作为对我自己的一个奖赏，因为我特别喜欢写代码。

《新程序员》：那你上一次写代码是在什么时候？

林咏华：我在假期期间写了一个 Agent。我觉得 Agent 不是纯粹由语言模型来扮演的，而是需要跟它有一个很好的平衡，否则会对整个安全系统产生很多问题，所以当时就弄了一个 Agent。最近，我在尝试由 Saining Xie 团队开源的 Cambrian-1 多模态大模型。这个模型很有特点，是在 vision encoder 这一层，尝试使用多个能力各有特点的 encoder 进行融合，从而提升多模态大模型的视觉表征能力。但这个模型当初是在 TPU 上面训练，没有开源基于 CUDA 的版本。我正在进行移植，尝试在英伟达的 GPU 上实现训练。

至于平时的话，由于我的时间很难保证，总是会被拉到各种会上，所以很多时候我写代码或者尝试一些新东西，是为了保持高度的技术敏感性，这对在高科技领域做好技术管理和技术判断十分重要，这也是我多年形成的技术习惯了。

坦白说，我们汲取最新技术信息的途径，首先是科技媒体的报道，第二是看论文，第三是代码。而我觉得最终还是需要接触代码的，只有完整试过这个东西，你才能知道这篇文章缺了什么或说错了什么。

《新程序员》：我们这代程序员可能受从小写代码的影响较多，很早就开始去接触编程了。但现在 AI 发展下，编程几乎成为一个工具，对于 10 后来说，他们的编程启蒙应该是一种怎样的形态？

林咏华：以我观察的我女儿为例，现在对他们来说，并不需要完整地去学完一门语言才能开始去做某些事，而是看他们自己想做些什么事情，然后哪里不会就学，实在不行就问 GPT。

我也经常问我自己，像他们这一代还需不需要很完整地去学编程。我的答案是——边走边看。很多时候我都先鼓励他们有自己的想法，确定想做一个什么东西出来、为什么要做这个，我觉得这比怎么做出来可能更重要。