Pre-Trained Models: Past, Present and Future综述总结(1)

总体介绍:

非神经模型

手工制作的特征和统计方法hand-crafted features and statistical methods

神经模型:

从数据中自动学习低维连续向量(也称为分布式表示),作为任务特定的特征

关键挑战之一是数据匮乏 data hungry,导致:

深度神经网络通常具有大量参数,因此容易过度拟合,泛化能力差 overfit and have poor generalization ability

但是手动构建高质量数据集,手动注释大规模数据,昂贵又耗时。

所以在研究:如何用有限的人类注释数据为特定任务训练有效的深层神经模型。

解决data hungry里程碑迁移学习:

迁移学习两个阶段的学习框架:

  1. 从一个或多个源任务中获取知识的预培训阶段 pre-training phase
  2. 以及将获取的知识转移到目标任务的微调阶段 fine-tuning (使用有限的样本处理目标任务。)

首先适用于计算机视觉CV,PTM用于所有CV任务:图像分类,目标检测,图像分割...

NLP:想充分利用大规模未标记语料库,采用了自监督学习(利用文本中的内在相关性,mask一部分预测)。

难点:梯度消失或爆炸的问题

早期探索侧重于预训练浅层网络,以捕获单词的语义,如Word2Vec,(限制,不同上下文中表示多义词,一个稠密向量)

Transformer使非常深度的神经模型成为可能

GPT(Radford2018)和BERT(Devlin2019)用transformer作为架构(算是large-scale)。大规模PTM会随着数亿个参数可以从文本中捕获多义消歧、词汇和句法结构以及事实知识。通过对大量样本的大规模PTMs进行微调,丰富的PTMs语言知识为下游NLP带来了惊人的性能

通过广泛使用分布式计算设备和策略,我们可以进一步将PTM的参数规模从百万级提升到十亿级。甚至万亿级

但是,关于PTM的一些未解之谜:不清楚隐藏在大量模型参数中的本质

四条线路:包括

设计有效的体系结构

利用丰富的上下文

提高计算效率

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值