实习生风采 · 贰 | 张倬胜同学:攻关「孟子」轻量化预训练模型

来源 | 澜舟科技

01

由游戏出发的计算机之路

大家好!我叫张倬胜,是上海交通大学20级博士研究生,去年3月来到澜舟科技实习,从事「孟子」预训练模型的技术研发及其在中文语言理解任务的应用

性格读博前ENTJ,读博后INTJ的我兴趣广泛,喜欢旅游、摄影,更是二十多年重度游戏爱好者,致力于保持游戏生活与学习工作的平衡状态:自打小学二年级,计算机专业毕业的舅舅为我打开了「新世界大门」,教我装系统、修复bug,甚至包括一些C++基础;星际争霸、魔兽争霸、红色警戒、跑跑卡丁车等名噪一时的经典游戏更是样样精通。游戏对我不仅仅是消遣,更像是「头脑风暴」,也是我与计算机缘分的开始。此外,我最近又喜欢上了运动,经常游泳和玩健身环大冒险,游戏+锻炼「二者合一」。

9f8d409001fda275175f7356fccac214.png

eae411f6ef9f474992b85f70c8f7b337.png

bd023ddb529291b399300469c7fb2fd5.png

左右滑动查看

生活态度上,我喜欢尝试新鲜事物,面临选择的时候相信缘分,追求快速决定,并坚信自己的选择,努力让自己的选择正确。

这一点也反映到了学术道路上——在2016年硕士入学的第一天,我怀揣着突然产生的训练机器参加考试的兴趣,走到了导师办公室,一番讨论后便确定并坚持了从事了五年有余的研究方向,在实验室率先开展机器阅读理解方向的研究,经历了最开始两年颗粒无收的煎熬后,逐渐找到适合自己的节奏。

02

一封邮件开始的实习历程

「相信缘分」所带来的魔力,也体现在了我与澜舟科技的故事上。

春归大地,我在澜舟科技的实习已满一载,回望当时,与大多数同学去企业实习时投简历-面试-入职的流程有所不同,我加入澜舟的过程是一场神奇的「机缘巧合」

2021年初,完全意料之外地,我挂在arXiv的长文吸引到周明老师这样学术大拿的注意;周老师当时主动发来邮件询问我的学术兴趣与发展目标,向我介绍澜舟。经过一通电话交流,我发现自己的研究与工作方向和澜舟的发展目标十分契合——我与整个澜舟团队一样,都对未来轻量化模型的发展充满期待:AI大模型的发展并非一味追求参数量大,而是聚焦模型的高性能,在让大模型学习和掌握更大量数据的同时,尽可能让大模型参数相对轻量化,在「减负」的同时提高能效。

我与导师赵海教授进行了一番探讨,导师也对我的选择给予了肯定和支持。经一番协调后,我便快速开启了实习流程,作为澜舟第一个「线上」实习生,远程开启了我这极具挑战且充实的一年;而这期间,我也有幸见证了澜舟科技从零起步、乘风破浪的峥嵘岁月;见证了蓬勃朝气的团队齐心协力,在技术研究、产品落地、项目开源、人才培养等方面实现的惊人突破。‍‍‍‍

03

最重要的是匹配

团队成员的匹配、人和业务的匹配是工作高效推进的关键。

博士生来到创业公司最大的担忧或许是目标匹配问题——发论文还是落地?然而,与澜舟团队的几次沟通迅速打消了我的顾虑。为了更好地进行团队合作,且让我没有后顾之忧,周老师很耐心地向我介绍了澜舟的发展宏图,并探讨了我的博士课题和规划,力图找到最匹配的部分。因此,我很快确定了自己在澜舟的研究方向——从事轻量化预训练模型的算法研究以及微调技术,与预训练团队一起攻关。

我们的轻量化中文预训练模型名为「孟子」「以力服人者,非心服也,力不赡也;以德服人者,中心悦而诚服也,如七十子之服孔子也。」是周明老师把模型命名为「孟子」的初心。「孟子」实现了用更小的模型规模(十亿参数量)比肩超大模型的性能,并且具备灵活的领域和场景适应能力,更有利于快速、低成本地落地现实业务场景

由于学校地域限制,我无法像其他实习同学一样base在北京办公;然而幸运的是,这一年实习期间,澜舟给了我最大化的「自由」,让我能沉下心去只攻算法。我与预训练组的同事们紧密配合、共同攻坚,在这样年轻化且目标坚定的团队中,一切挑战都不会由于线上交流而增加难度:只要大家「心」在一起,必定无惧风浪、所向披靡。

04

我们的目标是拿第一

「尽心而勿追昔,欲达则争朝夕」。我个人始终秉持的处事原则便是如此——把事情做到极致,比他人多一份心。我与我的导师都是注重细节、追求完美的「强迫症患者」,而这也与澜舟预训练组确立的首个目标不谋而合:拿下中文通用语言理解评测CLUE榜单的第一名

有了明确目标后,我们分别从预训练和微调技术进行广泛的验证,结合实际问题不断探讨改进。预训练方面,我参与设计了轻量化预训练技术的总体研究框架,分别从训练效率优化和预训练知识增强两个方面进行了初步的探索,撰写了相应的学术论文和发明专利;微调技术方面,我们重点探索了如何将预训练模型更好地适用于求解下游任务,使用了数据增强、对抗训练、知识蒸馏、迁移学习等多项实用技术

最终,我们以十亿参数规模的「孟子」模型,刷新了此前百亿、千亿级别参数模型轮番霸榜的中文语言理解权威评测基准CLUE榜单——

b390e3e5c254faf5867864f82eb1495e.png

点击查看大图

在足够优秀的团队中做出成绩实现自我价值,更让我确信这份「缘分」的宝贵与值得。

05

新环境、新突破、新收获

「站得高」、「决策快」是高效工作的保障。实习期间,令我感触最深的,便是澜舟团队对最新技术的即时讨论和快速决策:我们学习最前沿的知识,快速验证和提炼有效成分,并将其积极应用到实际工作之中。澜舟的工作节奏也让我保持着规律的工作状态,效率得到大幅提升;而团队对科研方向的宽容度也使得我有着良好的试错空间,敢于探索不确定的方向。

科学来源于生活,也将应用于生活。在公司实习的一大优势是团队互补——研发的模型交由业务团队使用,获得实际反馈,进而不断迭代优化。在这段实习中,我深刻体会到要从实际场景中提炼科学问题,提出方案解决问题。

同时,在这一年,我也有幸经历了创业公司的整体工作流程,在框架设计、算法研究、业务应用、知识科普各个阶段中都得到了丰富锻炼,最后更是荣幸获选了澜舟科技的优秀实习生

此外,我也有幸跟周老师一起在智源的预训练模型研讨会介绍轻量化预训练模型、一同出席第十届全国社会媒体处理大会(SMP 2021)并作报告。除去线下学术会议,我更在澜舟公众号撰写了多篇预训练模型解读和技术展望文章,包括「孟子」模型技术解读2022预训练模型研究十大趋势亮点预测等(点击绿字查看相关推文)。

除去以上种种收获,在澜舟的实习经历更是帮助到我入围2021百度奖学金十强——作为面向全球顶级高校人工智能专业中国学生的奖学金激励计划,百度奖学金是AI领域资助金额与含金量最高的奖项之一

06

结语

我始终坚信,一位真正有价值的大学生,应该勇于跳出自己的舒适圈,才能进入更广阔的天地。回顾这充满挑战的一年,我与秉持相同理念的团队不断磨合、彼此成就、共同成长,一起「第一个吃螃蟹」;这期间的每个日夜,都值得珍惜与品味。

49cdbe333e1b6124c1213eef688504ec.png

9b02f3cdfa8932ed0ea7764e0b19cf01.png

cc71ed44ff06f9bdd5e02052b4a21a85.png

左右滑动查看

漫无目的的忙碌其实是一种空虚,真正的充实是专注自己所热爱的事物并为之不遗余力。在澜舟,我的每一步都无比坚实;澜舟孵化一周年聚餐时,我虽没能亲自前往北京参与,但地理距离并不影响我发自内心为团队迈出的每一步感到骄傲。周老师切下蛋糕的一刻,我也感到了同等的喜悦——

再次感谢周老师的悉心指导,感谢澜舟的实习机会与每一位同事,也感谢我的导师在我实习期间给予的高度支持;很高兴能跟极具多样性的团队并肩作战,祝愿澜舟虎虎生风,无往不胜,也欢迎更多同学加入澜舟,向着最高目标进发!

觉得还不错就给我一个小小的鼓励吧!
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值