总体介绍:
非神经模型:
手工制作的特征和统计方法hand-crafted features and statistical methods
神经模型:
从数据中自动学习低维连续向量(也称为分布式表示),作为任务特定的特征
关键挑战之一是数据匮乏 data hungry,导致:
深度神经网络通常具有大量参数,因此容易过度拟合,泛化能力差 overfit and have poor generalization ability
但是手动构建高质量数据集,手动注释大规模数据,昂贵又耗时。
所以在研究:如何用有限的人类注释数据为特定任务训练有效的深层神经模型。
解决data hungry里程碑迁移学习:
迁移学习两个阶段的学习框架:
- 从一个或多个源任务中获取知识的预培训阶段 pre-training phase
- 以及将获取的知识转移到目标任务的微调阶段 fine-tuning (使用有限的样本处理目标任务。)
首先适用于计算机视觉CV,PTM用于所有CV任务:图像分类,目标检测,图像分割...
NLP:想充分利用大规模未标记语料库,采用了自监督学习(利用文本中的内在相关性,mask一部分预测)。
难点:梯度消失或爆炸的问题
早期探索侧重于预训练浅层网络,以捕获单词的语义,如Word2Vec,(限制,不同上下文中表示多义词,一个稠密向量)
Transformer使非常深度的神经模型成为可能
GPT(Radford2018)和BERT(Devlin2019)用transformer作为架构(算是large-scale)。大规模PTM会随着数亿个参数可以从文本中捕获多义消歧、词汇和句法结构以及事实知识。通过对大量样本的大规模PTMs进行微调,丰富的PTMs语言知识为下游NLP带来了惊人的性能
通过广泛使用分布式计算设备和策略,我们可以进一步将PTM的参数规模从百万级提升到十亿级。甚至万亿级
但是,关于PTM的一些未解之谜:不清楚隐藏在大量模型参数中的本质
四条线路:包括
设计有效的体系结构
利用丰富的上下文
提高计算效率