文本生成总结

最新推荐文章于 2024-07-25 10:32:52 发布

Dongxue_NLP

最新推荐文章于 2024-07-25 10:32:52 发布

阅读量3.6k

点赞数 8

分类专栏：自然语言处理NLP 文章标签：自然语言处理深度学习 nlp 人工智能神经网络

本文链接：https://blog.csdn.net/DongxueB/article/details/125133638

版权

自然语言处理NLP 专栏收录该内容

21 篇文章 9 订阅

订阅专栏

文本生成

一、文本生成概述

1、文本生成概述：https://www.jiqizhixin.com/articles/2017-05-22

任务包括：对话生成、摘要生成、机器翻译。

2、NLP综述：自然语言生成-NLG：https://zhuanlan.zhihu.com/p/85363175

3、清华NLP组年度巨献：机器翻译30年最重要论文阅读清单：https://blog.csdn.net/qq_27009517/article/details/86566987

二、评价指标：

1、文本生成13：万字长文梳理文本生成评价指标：https://zhuanlan.zhihu.com/p/144182853

2、阅读者的角度：生成句子是否符合正常语句表达

（1）没有语法问题

（2）符合正常的表达方式和逻辑

三、文本生成框架：seq2seq

1、介绍：seq2seq 是一个 Encoder–Decoder 结构的网络，它的输入是一个序列，输出也是一个序列，Encoder 中将一个可变长度的信号序列变为固定长度的向量表达，

Decoder 将这个固定长度的向量变成可变长度的目标的信号序列。

encoder的过程相似于人听到一段声音，然后在脑海中形成一个理解就【类似信息压缩的过程】，decoder就是然后再用自己的语言把它表达出来。

2、基于RNN、CONV、transformer的seq2seq模型的对比：https://my.oschina.net/u/4303180/blog/3473051

四、文本生成模型分类

1、基于RNN的语言生成模型：重点

2、基于CNN的语言生成模型：重点

3、基于transformer的语言生成模型：超重点

（1）transformerABS

（2）gpt系列——> gpt1、2、3 【文本生成领域使用预训练模型的尝试】

（3）bert系列 ——> BertSumABS

（4）结合gpt和bert——> bart、T5

4、基于GAN的语言生成模型【强化学习和GAN网络引入到文本生成】：了解

5、基于GCN的语言生成模型：了解

（一）基于RNN的文本生成模型

1、生成模型的组成部分：RNN系列模型

1-1、单层RNN：语言生成的主流模型

（1）RNN：

特点：rnn的记忆能力，每个隐状态取决于当前的隐状态和当前的输入。

论文地址：https://arxiv.org/pdf/1409.2329.pdf

（2）LSTM ：

特点：通过门结构使模型能够自由选择信息的传递。将循环函数从简单的全连接改为三个控制门的记忆单元

提高：进一步增加RNN的记忆能力，并减轻梯度爆炸和消失的问题。

论文 :https://arxiv.org/abs/1506.04214

代码 : https://github.com/loliverhennigh/Convolutional-LSTM-in-Tensorflow

代码torch : https://github.com/loliverhennigh/Convolutional-LSTM-in-Tensorflow

（3）GRU：

特点：对LSTM的循环函数进行简化，三个门变为两个门

提高：解决LSTM的循环函数比较复杂的问题，在保证效果和LSTM相似的情况下，，提高学习和推理效率。

论文：https://link.zhihu.com/?target=https%3A//arxiv.org/pdf/1406.1078.pdf

（4）LSTM和GRU的比较：

Empirical evaluation of gated recurrent Neural Networks on Sequence Modeling

An Empirical Exploration of Recurrent Network Architectures

（5）四个具有代表性的RNN扩展：

http://distill.pub/2016/augmented-rnns/#citation

1-2、双向RNN 和多层RNN

解决问题：输入的时间序列很长的时候，就是输入长句子，单层RNN结构，前向传播很难有效记忆历史信息，反向传播也无法很好的梯度回传。

（1）多层RNN有更深的网络参数和更深的结构，能够提高对长句子的记忆能力。

（2）双向对输入的时间序列进行从左到右的编码，考虑当前词的前后文信息能够得到更好的序列表示，但生成任务中，一般只知道前文要模型输出下文，所以双向的模型一般只使用于NLU任务。例如bi-lstm、bi-gru常用于命名实体识别

2、基于RNN的seq2seq文本生成模型

2.1、seq2seq 原始版本

（1）两篇论文

论文：Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Translation

时间：2014年

作者：Google Brain团队和Yoshua Bengio带领的团队提出

面向：机器翻译领域

亮点：较早提出seq2seq

使用：RNN
论文：Sequence to Sequence Learning with Neural Networks。

时间：2014

论文翻译：https://helloai.blog.csdn.net/article/details/112359175

作者：Google的Ilya Sutskever博士（现在OpenAI）

面向：机器翻译领域

亮点：用Beam Search改善预测结果，逆序输入句子对效果的提升。Beam Search方法其实本质就是在解码各阶段保留多个候选句子，最后在选择概率最大的序列。如果该方法的保留个数为1，其实就是贪心的思想，每一次解码都选取概率最大的那个值。该论文给出的结论是当size为2的时候，模型的表现最好。

使用：LSTM

（2）组成

Encoder [特征抽取器]、Decoder、以及连接两者的中间状态向量 C，

总结：两个RNN（encoder RNN + decoder RNN）拼接成的seq2seq

编码解码流程：https://blog.csdn.net/weixin_41640583/article/details/112250230

Encoder通过学习输入，将其编码成一个固定大小的状态向量 C（也称为语义编码），继而将 C 传给Decoder，Decoder再通过对状态向量 C 的学习来进行输出对应的序列。Encoder和decoder里面包含多个RNN 单元，通常是 LSTM 或者 GRU 。

（2）弊端

首先 Encoder 将输入编码为固定大小状态向量（hidden state）的过程实际上是一个“信息有损压缩”的过程。如果信息量越大，那么这个转化向量的过程对信息造成的损失就越大。
同时，随着 sequence length的增加，意味着时间维度上的序列很长，RNN 模型也会出现梯度弥散。更具体的说解码器和编码器常用 LSTM、GRU等等，如果需要翻译的文本很长，神经模型传递信息所需的距离就越长，因此丢失信息的可能性就越大。
最后，基础的模型连接 Encoder 和 Decoder 模块的组件仅仅是一个固定大小的状态向量，这使得Decoder无法直接去关注到输入信息的更多细节。为了解决这些弊端，就加入了attention模型

2.2、seq2seq + attention

（1）相关论文：

论文：Neural Machine Translation by Jointly Learning to Align and Translate

作者： Yoshua Bengio.

发表会议：ICLR2015

论文链接：https://arxiv.org/pdf/1409.0473.pdf

github 传送门： https://github.com/lisa-groundhog/GroundHog

亮点：最早提出attention思想，这篇文章在神经网络采用编码-解码RNN 做端到端的机器翻译的基础上，使得模型可以在预测下一个词的时候，自动地选择原句子相关的部分作为解码的输入。【解决句子变长的问题】

使用：LSTM

（2）改进点：

Attention在decoder过程中的每一步，都会给出每个encoder输出的特定权重，然后根据得到权重加权求和，从而得到一个上下文向量，这个上下文向量参与到decoder的输出中，这样大大减少了上文信息的损失，能够取得更好的表现。Attention机制是一种注意力（资源）分配机制，在某个特定时刻，总是重点关注跟它相关的内容，其他内容则进行选择性忽视。就像下图，在翻译“Knowledge”时，只会关注“知识”.这样的对齐能让文本翻译或者摘要生成更具针对性。

（3）弊端

摘要生成的时候：SeqSeq模型在时经常出现的重复词现象。【PGN网络解决】

机器翻译的时候：生成的词一般只能包含上下文已有的词。很多未登录词（OOV）【 oov(out of vocabulary) 集外词,又称未登录词】和罕见词（Rare Words）无法解码。原因：如果我们使用预训练的词向量，而同时在实际数据中出现了未登陆词，未登录词不在词典里面，我们只能不得不用一个<UNK>标记去指代这个词，。未登录词用UNK表示，解码阶段为UNK则无法解码，这样的词一旦很多，就必然会严重影响模型的结果。【PGN网络解决】

2.3、seq2seq + attention + PointerNetwork —— PT-Gen [PGN]

（1）相关论文

论文：《Get To The Point: Summarization with Pointer-Generator Networks》

发表机构：ACL 2017

源码地址：https://github.com/abisee/pointer-generator

面向：摘要生成

论文地址：https://link.zhihu.com/?target=https%3A//arxiv.org/abs/1704.04368

（2）组成：

先用编码器将原文本编码成一个中间层的隐藏状态，然后用解码器来将该隐藏状态解码成为另一个文本，encoder是一个双向的LSTM，这个双向的LSTM可以捕捉原文本的长距离依赖关系以及位置信息。decoder是一个单向的LSTM

（3）改进点

解读：https://zhuanlan.zhihu.com/p/71695633

coverage mechanism【机器翻译中用于解决“过翻译”和“漏翻译”的机制】来解决了seq2seq的通病--repitition，这个机制可以避免在同一位置重复，也因此避免重复生成文本。用先前的注意力权重决策来影响当前注意力权重的决策，这样就避免在同一位置重复，从而避免重复生成文本。具体理解(邮递员小王：《Modeling Coverage for Neural Machine Translation》阅读笔记)。加入一种copy机制，用pointer从原文中Copy那些OOV词来保证信息正确的重复。原文中引入了一个权重 [公式]，来衡量词是生成的还是复制的。核心同样是想办法让最终预测的概率向量涵盖输入文本中出现的OOV。

（4）弊端：

网络训练速和摘要生成速度慢：类RNN的序列模型LSTM\GRU：每个词是按顺序输入网络的，所以会记录文章的序列信息。因此，大部分的NLP任务，都是采用的RNN架构。但是这也限制了网络训练及摘要生成的速度，因为RNN必须一个个输入，一个个生成，无法并行计算【网络模型改用CNN解决】

（二）基于CONV的seq2seq

1、seq2seq + CNN

（1）相关论文

论文：Convolutional Sequence to Sequence Learning,

作者：facebook AI

时间： 2017

代码地址：facebookresearch/fairseq

论文阅读笔记：https://zhuanlan.zhihu.com/p/26918935
论文：A convolutional encoder model for neural machine translation

作者：facebook AI

时间： 2017

论文阅读笔记：https://blog.csdn.net/Xiao_yanling/article/details/92064214

面向领域：机器翻译，更准确NMT【神经机器翻译】

（2）创新点：

seq2seq架构中放弃RNN，完全用CNN + Gated linear units + Residual connections + Attention，convolution只能表达固定长度的文本，但是堆积多层可以使得可表达的文本长度变大，通过这种方式可以精确地控制目标依赖的源文本长度。
CNN网络的计算不像RNN会依赖于前一时刻的状态，所以可以允许在序列中的每一元素上并行。
Multi-layer CNN获取长时/长距离依赖时，所提供的path比RNN提供的更短，因为RNN是链式的。

（3）效果：

在编码器端使用卷积神经网络（CNN）代替主流的递归神经网络（RNN），在效果相当的前提下速度提升近2倍。

（三）基于transformer的seq2seq

1、transformer = seq2seq + attention

（1）论文：Attention is all you need,

论文地址： https://arxiv.org/pdf/1706.03762.pdf

代码：https://github.com/huggingface/transformers

简述：而Transformer模型则是在seq2seq+Attention模型的基础上把循环神经网络的部分给去掉了，取而代之的也是attention结构。这些seq2seq模型最初是使用RNN，但因为基于Transformer encoder-decoder的各种模型在处理长序列中的依赖关系表现更好，所以逐渐更受青睐。

（2）解读：

l transformer模型的各部分精细解读：https://zhuanlan.zhihu.com/p/122977440
l 一文读懂「Attention is All You Need」| 附代码实现：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/79023069?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-1.baidujs&dist_request_id=&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-1.baidujs

（3）基于transformer的文本生成模型：

Transformer 自动地生成论文的摘要

论文标题：On Extractive and Abstractive Neural Document Summarization with Transformer Language Models

作者：Element AI论文地址：https://arxiv.org/abs/1909.03186
基于图 Transformer从知识图谱中生成文本：

论文标题：Text Generation from Knowledge Graphs with Graph Transformers

2019年自然语言处理顶级会议之一NAACL

论文地址：https://arxiv.org/pdf/1904.02342.pdf

论文解读：https://www.freesion.com/article/79461221207/
Rotary Transformer ：语言模型

代码：https://github.com/ZhuiyiTechnology/roformer

2、GPT ：单向transformer

2.1、GPT1

（1）论文

标题：GPT 2018.06 Improving Language Understanding by Generative Pre-Training

论文地址：https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/language-unsupervised/language_understanding_paper.pdf

简述：模型的目标是学习一个通用的表示，能够在大量任务上进行应用。这篇论文的亮点主要在于，他们利用了Transformer网络代替了LSTM作为语言模型来更好的捕获长距离语言结构。然后在进行具体任务有监督微调时使用了语言模型作为附属任务训练目标。最后在12个NLP数据集上进行了实验，9个任务获得了SOTA。GPT预训练任务使用的是autoregressive的思想，使用已经解码出的信息来预测下一个位置。该种模式对于生成任务更为有效，而对于那些可以使用全局输入来得到输出的下游任务则比较差劲。

论文解读链接：https://blog.csdn.net/Magical_Bubble/article/details/89497002

（2）结构解读

结构解读：https://zhuanlan.zhihu.com/p/125139937

修改点：像Transformer一样。这样，GPT只能从左到右，或者从右到左扫描输入数据，因此被称为“单向模型”。gpt对transformer的修改”指的是，把decoder输出的多头注意力砍掉；，再配合特定的下游模型“，例如“线性变换+分类”之类的简单结构。

2.2、GPT2：统一NLU和NLG 【重点】

（1）论文：

论文标题： Language Models are Unsupervised Multitask Learners：

论文地址：

https://d4mucfpksywv.cloudfront.net/better-language-models/language_models_are_unsupervised_multitask_learners.pdf

GPT1&2比较：

https://blog.csdn.net/stdcoutzyx/article/details/108859693?utm_medium=distribute.pc_relevant.none-task-blog-baidujs_title-0&spm=1001.2101.3001.4242

简述：

GPT-2 在 GPT 的基础上采用单向语言模型，并舍去 Fine-tuning 阶段，利用高量多样的大文本数据训练得到一个巨型模型。

（2）相关项目：

GPT-2生成式多轮对话入门-----深入理解“用于中文闲聊的GPT2模型”项目

https://blog.csdn.net/g534441921/article/details/104312983

GPT2-中文摘要生成

https://zhuanlan.zhihu.com/p/113869509

用于中文闲聊的GPT2模型：GPT2-chitchat

https://zhuanlan.zhihu.com/p/96755231

GPT2-Chinese

https://github.com/Morizeyao/GPT2-Chinese

GPT2-chitchat

https://github.com/yangjianxin1/GPT2-chitchat

GPT2-Summary

https://github.com/qingkongzhiqian/GPT2-Summary

CDial-GPT

https://github.com/thu-coai/CDial-GPT

4、BART

（1）相关论文：

论文：BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension

机构：Facebook AI

论文地址：https://www.aminer.cn/pub/5dbab2523a55acea3c05b02b?conf=acl2020

收录会议：ACL 2020

代码：https://github.com/pytorch/fairseq/tree/master/examples/bart

简述：合了双向transformer【bert类】和自回归transformer【GPT类】，可用于文本生成和理解。

（2）论文解读：

ACL2020 | BART：请叫我文本生成领域的老司机：https://www.cn-healthcare.com/articlewm/20200925/content-1148722.html
ACL2020论文阅读笔记：BART：https://blog.csdn.net/ljp1919/article/details/108816398?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522161706835116780261957713%2522%252C%2522scm%2522%253A%252220140713.130102334.pc%255Fall.%2522%257D&request_id=161706835116780261957713&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~all~first_rank_v2~rank_v29-5-108816398.first_rank_v2_pc_rank_v29&utm_term=bart%E6%96%87%E6%9C%AC%E7%94%9F%E6%88%90
BART原理简介与代码实战：https://zhuanlan.zhihu.com/p/121788986

（2）开源项目

用BART搭建摘要生成服务：https://blog.csdn.net/muyao987/article/details/105399325?utm_medium=distribute.pc_relevant.none-task-blog-searchFromBaidu-6.control&dist_request_id=1328741.16873.16168599898262119&depth_1-utm_source=distribute.pc_relevant.none-task-blog-searchFromBaidu-6.control

5、T5：统一NLU和NLG

（1）论文：Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer

论文地址：https://arxiv.org/pdf/1910.1068

（2）简述：和GPT2一样,T5希望用同样的模型，同样的损失函数，同样的训练过程，同样的解码过程来完成所有 NLP 任务。Bart和T5在预训练时都将文本span用掩码替换，然后让模型学着去重建原始文档。T5使用replace corrupted spans任务，没有进行mask操作，而是选择了随机token进行替换。

T5模型解读：https://blog.csdn.net/hecongqing/article/details/103404315

6、PEGASUS

以摘要提取任务定制的GSG作为预训练目标的seq2seq模型

（1）论文：《PEGASUS: Pre-training with Extracted Gap-sentences for Abstractive Summarization》

论文地址：https://arxiv.org/abs/1912.08777

代码：https://github.com/google-research/pegasus

简述：Pegasus模型：基于Transformer，5.68亿参数，论文提出了一种新的自监督预训练目标：GSG(Gap Sentences Generation)，以适配Transformer-based的encoder-decoder模型在海量文本语料上预训练

论文解读：Google天马（PEGASUS）模型： https://blog.csdn.net/Airstudy/article/details/107599128

7、T5 【基本架构】+ PEGASUS【预训练方式】

（1）项目：T5 PEGASUS：开源一个中文生成式预训练模型：

https://kexue.fm/archives/8209

8、UniLM