非常简单实用项目文本生成（UniLM模型）

最新推荐文章于 2024-06-09 11:16:58 发布

Cchaofan

最新推荐文章于 2024-06-09 11:16:58 发布

阅读量2.9k

点赞数 5

分类专栏：项目文章标签： p2p tv 网络协议

本文链接：https://blog.csdn.net/Cchaofan/article/details/122093210

版权

项目专栏收录该内容

1 篇文章 0 订阅

订阅专栏

今天给大家介绍一个文本生成的一个项目，非常简单实用。

首先说一下Transformer专属（扩展）

UNILM的seq2seq预训练，Xlnet的乱序语言模型预训练，基本可以说是专门为transformer架构定制的。如果是RNN架构，就不能用乱序语言模型来训练，至于seq2seq的预训练方式，必须同时引入两个模型（encoder和 decoder），不能像transformer架构一样，一个模型搞定。

Attention模型

这里的，分别代表query、key、value的向量序列，其中key和value是一一对应的，而将query,key的向量两两做内积，然后用softmax归一化，就得到一个lq*lk的attention矩阵，描述的就是query和key之间任意两个元素的关联强度。最后再与V相乘，相当于按照这个关联强度V的各个向量加权求和，最终输出一个lq*dv的向量序列。

目前最常用的attention方式self attention（我的博客里面也有关于attention的文章）,即q,k,v都是用一个向量序列经过线性变换来的，而transformer是self attention跟 position-wise全连接层组合，所以，transformer就是基于attention的向量序列到向量序列的变换。

单向语言模型

语言模型可以说是一个无条件的文本生成模型。语言模型的关键点是要防止看到“未来信息”。如上式，预测x1的时候，没有任何外部输入，预测x2的时候，只能输入x1，预测x3的时候，只能输入x1,x2,依次类推。

RNN模型是天然适合做语言模型的，因为它本身就是递归的运算，如果是CNN来做的话，需要对卷积核进行mask,需要将卷积核对应右边部分置零。

Transformer模型，需要一个下三角矩阵形式的attention矩阵：

如图所示，attention矩阵的每一行事实上都代表着输出，而每一列都代表输入，而attention矩阵就代表输出和输入的关联。假设输入的北京我爱你..... 白色方格代表o,那么第一行表示“北”只能跟起始标记<s>有关，而第2行‘京’只能跟起始标识符<s>和‘北’相关了。以此类推，只需要在transformer的attention矩阵中引入下三角形式的mask,并将输入输出的错开训练，就可以实现单向语言模型。

seq2seq模型

任何NLP问题都可以转化为seq2seq来做，是一个真正意义上的万能模型。MASS和UNILM,MASS是普通的seq2seq架构，分别用bert类似的transformer模型来做encoder和decoder，它的主要贡献就是提供了一种seq2seq的思想的预训练方案。UNILM直接使用单个bert模型就可以做seq2seq任务，而不用区分encoder和decoder,特别之处只需要一个mask。

Unilmn直接将seq2seq当成句子补全。假如输入是“你想吃啥”,目标句子是“白切鸡”,那Unilm将这两个句子拼成一个：经过这样的转化后，最简单的方案是训练一个语言模型，然后输入来预测白切鸡”,知道出现“[SEP]”为止。（左图）

其实右图比左图简单，左图把你想吃啥也加入了预测范围（导致这部分的attention是单向的，对应部分的mask矩阵是下三角），其实这是不必要的，属于额外约束。真正要预测的只是“白切鸡”这部分，所以我们可以把“你想吃啥”这部分的mask去掉，得到上面的右图的mask。

这样一来，输入部分的attention是双向的，输出部分的attention是单向，满足seq2seq的要求，而且没有额外约束。这便是Unilm里面提供的单个bert模型就可以完成seq2seq任务的思路，只要添加上述mask,而不需要修改模型框架，可以直接用bert的masked language moder预训练权重，收敛更快。

UniLM模型(重点)

其实Unilm是一个融合nlu和nlg能力的transformer模型，由微软在19年5月份提出来，20年升级到V2版本。

Unilm的核心是通过特殊的attention mask来赋予模型具有seq2seq的能力。假如输入是“你想吃啥”，目标句子是“白切鸡”，那Unilm将这两个句子拼成一个：

这几个token之间是双向的attention,而这几个token是单向attention,从而允许递归地预测这几个toekn,所以它具备文本生成能力。

Seq2seq只能说明Unilm具有NLG能力，前面说同时具备NLU和NLG能力。因为UNILM特殊的attention mask,所以这六个token只在他们之间相互做attention，而跟完全没有关系，尽管后面拼接了，但这不会影响前6个编码向量。就是前面6个编码向量等价于只有时的编码结果，如果的向量代表句向量，那么他就是“你想吃啥”的句向量，而不是加上“白切鸡”后的句向量。

由于这个特性，Unilm在输入的时候也随机加入一些，,这样输入部分就可以做MLM任务，输入部分就可以做seq2seq任务,MLM增强了NLU能力，而seq2seq增强了NLG能力。

SimBERT模型（重点）

SimBERT属于有监督训练，训练预料是自行收集的相似句对，通过一句来预测另一句的相似句子生成任务来构建seq2seq部分，然后前面也提到过的向量代表输入句的向量，所以可以同时用它来训练一个检索任务。

假设a和b是一组相似句，在同一batch中，把ab和ba都加入训练，做一个相似句的生成任务，这是seq2seq部分。

另一种，把整个batch内的向量都拿出来，得到一个句向量矩阵（b是batch_size,d是hidden_size），然后对d维度做l2归一化，得到,然后两两做内积，得到b*b的相似度矩阵，接着乘以一个scale(取到了g0),并mask掉对角线部分，最后一行进行softmax,作为一个分类任务训练，每个样本都是目标标签是他的相似句。其实就是把batch内所有非相似样本都当做负样本，借助softmax来增加相似样本的相似度，降低其余样本的相似度。

说到底，关键就是的向量事实上就代表着输入句的向量，所以可以用它来做一些NLU相关的事情。最后的loss是seq2seq和相似句分类两部分loss之和。

Cchaofan

关注

5
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
非常简单实用项目文本生成（UniLM模型）

今天给大家介绍一个文本生成的一个项目，非常简单实用。首先说一下Transformer专属（扩展） UNILM的seq2seq预训练，Xlnet的乱序语言模型预训练，基本可以说是专门为transformer架构定制的。如果是RNN架构，就不能用乱序语言模型来训练，至于seq2seq的预训练方式，必须同时引入两个模型（encoder和 decoder），不能像transformer架构一样，一个模型搞定。Attention模型这里的，分别代表query、key、...
复制链接

扫一扫