深聊丨“紫东太初”大模型背后有哪些值得细读的论文(一)

本文深入探讨了大模型开发与学术论文之间的关系,通过与武汉人工智能研究院副院长张家俊博士的对话,揭示了论文在大模型研发中的作用。文中介绍了五篇相关论文,涉及参数差异化、注意力机制校正、任务感知注意力机制和参数高效微调等主题,阐述了这些研究如何推动大模型技术的发展。
摘要由CSDN通过智能技术生成

54fa2d3c2f53c12434fa25349714f7b3.png

原创:谭婧

没有人想等待,没有人想落伍。

新鲜论文时兴火热,成为大模型发展迅猛的标志之一,人们用“刷论文”这个游荡意味的动词替代另一个颇为严肃的动作,“读论文”。

论文被当作“教材”和“新知识”,在arXiv网站刷论文成为日常。

不止于此,论文读者也从科研人员迅速扩大到投资人、投研、创业者、AI从业者和科技媒体。

那些急切想入行的人“咸欲学死”;

那些没用上大模型的人“怏怏不悦”;

从甲方到乙方,人们把“不甘”写在脸上,有些甚至从“稳重型”变成“饥渴型”,从“观望型”变成“上手型”。

北京西北方向某个国产智能云厂商已将“硬件+业务指标”捆绑标价,成了大模型的报价方式;某外资云厂商的解决方案架构师(Solutions Architect)被甲方“有请做客”,亲身示范:如何部署开源大模型LLaMA。

因开源条款的限制,LLaMA不能商用。甲方不想再等,至少学起来,哪怕“部署”仅仅停留在“示范”环节。

来自美国OpenAI微软谷歌等等机构的论文以其高度的领先性为大家所追捧;开源大模型入场后,便可以在开源模型上做测试做研究,以此来增加对大模型及其全套系统的理解。

我最翘盼之事便是和有亲身经验的科学家深聊,和训练过大模型的科学家深聊。

有幸,我和武汉人工智能研究院(下文简称“武智院”)副院长张家俊博士聊了聊,同时,他也是中国科学院大学的教授。

武智院和中科院自动化所共同研发了“紫东太初”大模型,这背后有多篇论文值得细读。而作为其中多篇高质量论文的作者兼指导老师,张家俊教授也非常适合回答这些问题。

e053bba4a972e2ec1655f0ae702b918d.png

在深入论文之前,我向张家俊博士提的第一个问题是:

“做出和GPT-4竞争的大模型,和发表领域高质量学术论文,这两件事情之间是一种什么关系?”

这既是一个学术问题,也是一个应用问题,而且解释和理解都需要费一番功夫。

他谈到:“在大模型技术领域,论文发表在顶级学术会议或者学术期刊,大多算法实现的性能是在某一个数据集(一般规模较小)上,换成大模型、大算力,大数据,论文思路和设计未必奏效。”

他给我打了一个比方:

我们把这种高质量的论文,看做铁人三项中的一项,游泳或者自行车。又或者说,三项不够,“铁人多项”才够。

“铁人多项”中的每一项都充满挑战,每一篇顶会论文也不会轻易得来。

而GPT4大模型作为史上最智能的AI软件,它是一个复杂系统工程。这就好比,GPT4是由铁人多项运动组成的长途比赛。

大模型要求的核心技术数量多,工程难度大。

他的观点是,大模型并不是靠论文做出来的,但是,也离不开论文。

这些经典论文以及开源大模型的论文和代码,对大模型工程已然非常重要。造出大模型,或者说用工程实践出大模型,这件事情已经无法离开经典论文,极少有人从零开始,从头到尾地跑出来大模型。

人们用论文里的思想,用开源的代码复现,或者再加一些自己的代码,微调之后,最终获得自己的大模型。

他谈道,发表大模型领域的高质量论文,好比在铁人运动某一项专项锻炼,在论文中实验并验证出行之有效的思路。

然而,论文并不能照搬到“造大模型”这件事,而是积累经验,以及增加对大模型复杂工程的理解。

或者,你千辛万苦地发表一篇高质量论文,对你造大模型这件事情的帮助可能是“0”。

从这番比喻,可得知:

哪怕是对大模型有“任何进一步”的理解,都不是一件简单的事情。甚至可以用上“进一寸,有一寸的欢喜”这样的散文式的说法。也许很多耗尽脑力和体力的努力根本没有用,甚至是冤枉路,回头路。

实现复杂工程这件事,既艰难,又残酷。让人又爱又恨的是,论文几乎日日新。

大模型浪潮之下,人们更重视论文时效性,而不是论文权威性。美国康奈尔大学维护的arXiv网站在这个时候显示出独特的意义。

很多经典论文也发表在arXiv网站上,所有人都想加快论文的“问世”速度,arXiv网站包揽了经典与速度,这让其江湖地位无人能比。

这个学术论文网站承担了一种“成果速递”的角色,人们追求“步履如飞”,而不是“稳重安详”。“更快一步”而不是经过学术规范之后的“更完美一步”。

张家俊博士谈到:“同样的做法,武智院的BigTrans这篇论文也是发在arXiv网站上。”

武智院BigTrans:让大型语言模型拥有超过100种语言能力

他强调:“武智院的BigTrans这篇论文并没有追求学术思路(idea)的创新,在当前的形势下,我认为集成创新和应用创新也非常重要。学术期刊在评审论文的标准和大模型工程实践里的创新都有其意义,是两个完全不同的方向。”

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值