ADL会议是中国计算机协会定期组织的前沿讲习班,会邀请计算机各细分领域的领军人物针对当前领域的前沿知识进行一系列的介绍。本期我将概括介绍ADL第129期的具体内容,具体内容还请看官移步ADL官网查看会议总结。
ADL1291历时3天,共6个报告。报告讲者记录如下,涉及主题主要包括:自然语言处理的模型发展介绍(崔一鸣),一个微调工具(Delta Tuning),prompt learning(刘鹏飞),自然语言模型的实际应用(杨红霞),机器翻译模型(李磊),模型压缩和加速(侯璐/尹伊淳)。
讲者 | 方向 | 报告题目 |
---|---|---|
崔一鸣 | 科大讯飞 | 面向自然语言理解的预训练模型 |
刘知远/丁宁 | 清华 | Delta Tuning: Parameter-efficient Adaption of Big Models |
刘鹏飞 | CMU | The Foundations, Applications and Research trend of Prompt Learning |
杨红霞 | 达摩院 | 超大规模多模态预训练模型建设与其产业化落地 |
李磊 | 加州大学圣巴巴拉分校 | 机器翻译预训练方法 |
侯璐/尹伊淳 | 华为 | 预训练语言模型的压缩与加速 |
自然语言处理的模型发展介绍
用CoVe、ELMo 这种简单的基于上下文的语言编码模型开头,重点介绍了BERT与GPT模型及其变种,最后提了一点知识蒸馏和模型裁剪。
总结:
- 预训练框架:先预训练再微调的模型具体是怎么进行的,预训练/微调的训练数据是什么,损失函数是什么,具体任务是什么
- mask的方法:不同mask方法适用于不同的任务
微调工具:Delta tuning
报告分为2个部分,前半部分是prompt learning的定义和背景,后半部分是介绍delta tuning。个人看法:后半部分比较适合上手实践学习。
总结:
- prompt learning:将NLP中的众多任务归结到一个任务,简化了训练流程,one for all的设计简洁优雅
- delta tuning:解决大模型训练难的问题,只tune一部分参数提升了调参效率(提问后得知:但是不会对准确性有可证实的好处)
prompt learning
是上一个汇报的延伸,更侧重理论上和趋势上的介绍,重点介绍prompt learning的定义,高层次地总结了模型训练的四个范式:特征工程,结构工程,目标工程和启发工程,NLP模型的发展过程则由这四个范式划分成四个阶段。
总结:
- 数据范式:或许成为下一个范式(这点只是预测)
- 范式:这个东西将模型的发展分成了4个阶段,每个阶段里模型设计的重点考虑是不一样的。
自然语言模型的实际应用
以阿里M6为例子介绍阿里在自然语言模型应用方面做出的尝试,提出自然语言模型在应用层面上更像是一个系统问题:模型太大放不到一块卡上,需要进行多卡通信;负载失衡,只有少数节点发挥大部分作用。Pathway google 是一个很有希望解决上述问题的系统。
总结:
- 系统vs算法:算法可能很fancy,系统才是解决问题的实际
机器翻译模型
将机器翻译模型分成单语言/多语言的机器翻译模型,以及同声传译模型等,分别介绍每部分的实现模型。
总结:
- 模型细致的分类:可以看看原幻灯片
模型压缩和加速
模型压缩主要包括剪枝,量化,知识蒸馏三个方法,这些方法大都使用在BERT模型上(GPT直到了3才得到广泛关注,大量的工作都在BERT这边)。
总结:
- 重点介绍了:剪枝,量化和知识蒸馏,还有一些其他方法
ADL129的视频尚未上传,可能过几天会上传吧🙈。 ↩︎