自然语言处理中的预训练模型-邱锡鹏老师

最新推荐文章于 2024-08-19 09:46:08 发布

sueong

最新推荐文章于 2024-08-19 09:46:08 发布

阅读量1k

点赞数

分类专栏：算法笔记文章标签：自然语言处理深度学习人工智能

本文链接：https://blog.csdn.net/sueong/article/details/124810454

版权

算法笔记专栏收录该内容

10 篇文章 0 订阅

订阅专栏

自然语言处理中的预训练模型

视频地址(https://www.bilibili.com/video/av883626347
参考https://blog.csdn.net/qq_37388085/article/details/108463269

1、自然语言表示学习

1.1 什么是自然语言处理（NLP）

自然语言≈人类语言，不同于人工语言（如程序语言）；

1.2 NLP的基础：语言表示

如何在计算机中表示语言的语义？

知识库规则

分布式表示

句子嵌入

1.3 自然语言处理任务

序列到类别-情感分类/文本蕴含

同步的序列到序列-中文分词

异步的序列到序列-机器翻译

1.4 NLP的语义组合

语言的性质：层次性/递归性/序列性

语义组合：句子的语义可以词组成/长程依赖

1.5 NLP模型演变

1.6 NLP中的三大模型

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-92gzwQtr-1652713707798)(RackMultipart20220516-1-mk0c0f_html_213932adc8957f6c.png)]

卷积模型：通过卷积核进行信息读取整理；

序列模型：同一层模型之间存在信息传递；

全连接图模型：h1的上下文表示依赖输入的所有词，这就是全连接，全连接用虚线表示其权重是动态计算的

这样远距离依赖会丢失前两个问题难以处理长距离依赖问题。可以通过加深层数来解决，但是这样参数也会更难学。

1.7 注意力机制：自注意力模型、多头自注意力模型

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-GByupoVT-1652713707799)(RackMultipart20220516-1-mk0c0f_html_d2c8e2c53e7c39f6.png)

给定序列"The weather is nice today"，假设现在需要知道"The"的上下文表示，"The"有可能需要依赖序列中的非局部信息，因此我们将其与输入的所有词进行链接；为了得到对应每个词的权重，将"The"与其它所有词计算相似度获得对应的权重，最后进行累加得到"The"的上下文向量表示。

自注意力机制：就是说它的query来自内部求the 的上下文 :加权组合和累计求和

Q K计算相似度矩阵 X是转置 V用来做加权汇总使得模型学习能力更强
在这里插入图片描述

多头自注意力：模型将自注意力模型进行重复叠加操作，得到多组不同的上下文表示，可以理解为在不同空间中的语组关系，将其拼接起来，最后再使用一个参数矩阵W将其变换为输入时对应的向量维度。得到更强的上学文表示

1.8 Transformer

可能是目前为止最适合NLP的模型；

广义的Transformer指一种基于自注意力的全连接神经网络

核心组件：自注意力（self-attention）

仅仅有自注意力还不够（例如没有考虑位置信息），还包括其它操作：

位置编码
层归一化
直连边
逐位的FNN

在这里插入图片描述
直连边使得位置更好的回传

2、预训练模型

2.1 预训练模型之前

如果要训练一个比较好的NLP模型，需要改变原来的训练方法，即从端到端从零开始学习转变为进行"数据增强"、"迁移学习"、"多任务学习"

数据增强：引入外部知识，比如增加人工的辅助损失函数等；
迁移学习：在大语料上把数据训练好，然后再迁移到目标任务中；
多任务学习：一个任务的数据可能很少，可以把多个任务的数据拼接到一起进行模型训练；

2.2 为什么要预训练

获得通用的语言表示；其实语言表示不需要和任务相关
获得一个好的初始化（Hinton在2006年使用玻尔兹曼机初始化深度神经网络）；没有预训练随机初始化效率低
预训练可以看做一种正则化方法（避免在小数据集上过拟合），由于模型比较复杂，当训练数据较小时很容易导致过拟合；在一个通用模型后继续训练(fine-tune) 不至于导致过拟合

2.3 预训练任务

预训练带来一个问题，怎么获取大量的预训练语料？主要有以下三种方法：