开会总结【1】ADL129

ADL129期聚焦自然语言处理,涵盖预训练模型、DeltaTuning、prompt learning、大模型应用、机器翻译及模型压缩。崔一鸣介绍了预训练和微调,刘鹏飞探讨prompt learning基础与趋势,杨红霞分享了超大规模模型的产业化,李磊讲解机器翻译,侯璐和尹伊淳则关注模型压缩和加速。
摘要由CSDN通过智能技术生成

在这里插入图片描述

ADL会议是中国计算机协会定期组织的前沿讲习班,会邀请计算机各细分领域的领军人物针对当前领域的前沿知识进行一系列的介绍。本期我将概括介绍ADL第129期的具体内容,具体内容还请看官移步ADL官网查看会议总结。

ADL1291历时3天,共6个报告。报告讲者记录如下,涉及主题主要包括:自然语言处理的模型发展介绍(崔一鸣),一个微调工具(Delta Tuning),prompt learning(刘鹏飞),自然语言模型的实际应用(杨红霞),机器翻译模型(李磊),模型压缩和加速(侯璐/尹伊淳)。

讲者方向报告题目
崔一鸣科大讯飞面向自然语言理解的预训练模型
刘知远/丁宁清华Delta Tuning: Parameter-efficient Adaption of Big Models
刘鹏飞CMUThe Foundations, Applications and Research trend of Prompt Learning
杨红霞达摩院超大规模多模态预训练模型建设与其产业化落地
李磊加州大学圣巴巴拉分校机器翻译预训练方法
侯璐/尹伊淳华为预训练语言模型的压缩与加速

自然语言处理的模型发展介绍

用CoVe、ELMo 这种简单的基于上下文的语言编码模型开头,重点介绍了BERT与GPT模型及其变种,最后提了一点知识蒸馏和模型裁剪。

总结:

  1. 预训练框架:先预训练再微调的模型具体是怎么进行的,预训练/微调的训练数据是什么,损失函数是什么,具体任务是什么
  2. mask的方法:不同mask方法适用于不同的任务
    在这里插入图片描述

微调工具:Delta tuning

报告分为2个部分,前半部分是prompt learning的定义和背景,后半部分是介绍delta tuning。个人看法:后半部分比较适合上手实践学习。

总结:

  1. prompt learning:将NLP中的众多任务归结到一个任务,简化了训练流程,one for all的设计简洁优雅
  2. delta tuning:解决大模型训练难的问题,只tune一部分参数提升了调参效率(提问后得知:但是不会对准确性有可证实的好处)
    在这里插入图片描述

prompt learning

是上一个汇报的延伸,更侧重理论上和趋势上的介绍,重点介绍prompt learning的定义,高层次地总结了模型训练的四个范式:特征工程,结构工程,目标工程和启发工程,NLP模型的发展过程则由这四个范式划分成四个阶段。

总结:

  1. 数据范式:或许成为下一个范式(这点只是预测)
  2. 范式:这个东西将模型的发展分成了4个阶段,每个阶段里模型设计的重点考虑是不一样的。
    请添加图片描述

自然语言模型的实际应用

以阿里M6为例子介绍阿里在自然语言模型应用方面做出的尝试,提出自然语言模型在应用层面上更像是一个系统问题:模型太大放不到一块卡上,需要进行多卡通信;负载失衡,只有少数节点发挥大部分作用。Pathway google 是一个很有希望解决上述问题的系统。

总结:

  1. 系统vs算法:算法可能很fancy,系统才是解决问题的实际

机器翻译模型

将机器翻译模型分成单语言/多语言的机器翻译模型,以及同声传译模型等,分别介绍每部分的实现模型。

总结:

  1. 模型细致的分类:可以看看原幻灯片
    请添加图片描述

模型压缩和加速

模型压缩主要包括剪枝量化知识蒸馏三个方法,这些方法大都使用在BERT模型上(GPT直到了3才得到广泛关注,大量的工作都在BERT这边)。
总结:

  1. 重点介绍了:剪枝量化知识蒸馏,还有一些其他方法
    请添加图片描述

  1. ADL129的视频尚未上传,可能过几天会上传吧🙈。 ↩︎

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值