一场九年前的“出发”:奠基多模态,逐鹿大模型

本文讲述了何晓冬博士及其团队在多模态大模型技术研发上的历程,强调了工程能力和科研真谛的重要性。2018年是一个关键转折点,团队在多模态技术上取得突破,如文生图算法,为京东云言犀平台奠定了基础。当前,大模型的发展聚焦于AGI,以多模态技术为核心,逐步推进通用语言模型和认知智能。文中还探讨了大模型产业应用面临的挑战和未来趋势,指出数据、业务理解和反馈循环是产业发展的重要条件。
摘要由CSDN通过智能技术生成

原创:谭婧

26db7257b572ed717f6759dfbe62dd4f.jpeg

全球AI大模型的技术路线,没有多少秘密,就那几条路线,一只手都数得过来。

而举世闻名的GPT-4浑身上下都是秘密。

这两件事并不矛盾。为什么呢?

这就好比,回答“如何制造一台光刻机?”。

“所需要的任何数学公式、物理学定律和工作原理,都可以在任何一所理工科大学的图书馆里找全,但是这距离制造出光刻机,完全是两码事,中间需要解决的工程问题是数以十万级。”

光刻机的例子来自曾任微软雷德蒙德研究院深度学习技术中心的首席研究员,现任京东集团副总裁、京东科技智能服务与产品部负责人的何晓冬博士。

将技术做到极致,人类智慧正在打开“机器智慧”的魔盒。

极致背后的奥秘被多位科学家以毕生之经历数次总结。

我于2021年7月收藏了何晓冬博士在京东AI研究院内部分享的九条经验,频频回顾,总有收获。

161cdac380b66b43467b31e8dbfbb78c.png

分享得到了他的允许。

在这九条经验中,何晓冬博士不仅再次强调了“工程能力”的重要性,而且毫无保留地将他心中的普世科研真谛递给麾下科研人员。

如今,大模型的爆发将AI工程实践推向了一个崭新巅峰。在何晓冬博士看来,AI在科学原理意义上的进步,离不开工程的极致实现。

这是一个“既要”“也要”的难题。

历史反复证明,技术是创新的核心,但它也需要资源和管理的加持才能产生预期的成果。所以,创新不是技术的独角戏,而是与资源与管理的合奏曲。

当今世上,一个人一支笔依然可以拿诺贝尔文学奖,但一个人就想造出有竞争力的千亿参数的AI大模型,已绝无可能。

fba74537b3bc35edeff2cf7f5635910b.jpeg

那些容易被忽略的细节,科技观察者应该重视。

当某一技术路线蓄积爆发的力量,那么多年前这个技术路线上奠基论文的引用数量就会突然间增长。

时隔五年,一篇完成于2018年,关于注意力机制的论文(“Bottom-up and top-down attention”)引用量,悄然增长(截至发稿前4028次引用)。

这篇论文的学术价值在于,在更高层次上提出一个比较基础的问题:“跨模态的语言和图像信息,在语义层次怎么对齐?”

假如哪位读者对多模态技术感到兴奋,那“对齐”这个词,定是“后会有期”。

稍作论文综述与归纳就会发现,这篇论文是更早期三篇论文的“集大成者”。文中提出了一种非常创新的注意力机制。前三篇之一的论文“Hierarchical attention networks”,截至我的这篇文章发稿前,有4953次引用。一般来说,AI领域论文引用量在一千以上就算较高。

而今看来,三篇蓄力一篇发力的技艺让这套“三+一”的论文有了里程碑式的意义。

d520e8874b65ef6cbd2ce3b107931c1d.png

有趣的是,过去五年,CVPR会议发表的所有论文中,“Bottom-up”这篇论文排名前二十。

更有趣的是,排名前二十的论文中,只有“Bottom-up”这一篇是有关多模态的。

要我说,排名前二十的论文中,按多模态技术排名,这篇论文排第一。(因为前19篇都是关于计算机视觉的,哈哈。)

这项多模态学术论文奠基工作来自何晓冬与京东云言犀人工智能应用平台团队。

CVPR在世界上所有期刊和会议文集中排名第四,有多少AI科研工作者宵衣旰食、不辞劳苦都是为了在会议截稿前争取“一张门票”。

CVPR有一个指标(H5因子),在此发表的重要工作(不是所有工作)的科研价值已经跟科学杂志Nature(《自然》),Science(《科学》)处于同一水平。

从2014年的第一篇发布至今,日月不居,匆匆九年。

多模态技术之于大模型重要性不言而喻,时间会等待想法不同的人最终到达同一个目的地。

在这九年中,2018年是一个特别重要的年份。

那一年,何晓冬出任京东AI 研究院常务副院长。

那一年,何晓冬博士团队用文生图算法(AttnGAN)生成了一张小鸟“照片”。

可以说,这是人工智能文生图的“古早小鸟”。

00c90064d95a563ca0f5a46954851d04.png

那是一只红羽毛白肚子的短嘴小鸟,胖憨可爱,加上两道黑粗剑眉,神似风靡全球的游戏“愤怒小鸟”里的主角。何晓冬博士告诉我,他喜欢给阶段性工作留下纪念品,这只小鸟有段时间是他的手机屏保。

那一年,时光仿佛打开了一扇门。他从门缝中看到了一个更大的空间,一个从未见过的空间,他对到达那个空间充满信心。

何晓冬博士说:“不只是我的团队做大模型要走多模态这一条路,其他团队也得走这条路。”

“走多模态

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值