可控文本生成：NLP的创新与挑战-CSDN博客

本文链接：https://blog.csdn.net/qq_43588670/article/details/128384176

提示：文本生成是nlp的重要领域，而可控文本生成的出现对于NLP研究具有重大意义。边学边总结不断更新，先把大框架搞好。

文章目录

前言
一、可控文本生成任务
二、文本生成模型与挑战
三、文本生成的小子类评论生成
四、可控文本生成实现的一般方法
总结

前言

可控文本生成目前在聊天机器人，智能问答，新闻撰写，营销文案生成，线上商品标题自取以及简介生成等多种领域发挥了巨大作用。可控文本生成需要模型具有一定的发散能力，而中文文化又博大精深，汉字又是离散的状态，这使得文本生成在建模上更加多样，复杂。传统的文本生成建模一般采用seq2seq，最近几年转向了GAN。

提示：以下是寻欢桑做的一点总结欢迎大家批评指正

一、可控文本生成任务

人类是通过从外界获取，学习和储存知识，可以迅速理解对话里的内容，从而做出合适的回复，机器必须结合考虑上下文才能回答的差强人意。在文本生成任务中，“知识”是对输入文本和上下文的一种“补充”，可以由不同方法和信息源获得，包括但不限于关键词，主题，键值对，知识图谱等，这些“知识”可以通过不同的表示方法学习到有效的知识表示，用于增强文本生成任务的生成效果，这就被称为知识增强的文本生成（Knowledge-Enhanced Text Generation）。因此，知识增强的文本生成主要有两个难点：如何获取有用的知识，以及如何理解并借助知识促进文本生成。 在这里插入图片描述

通过关键字生成可控文本

通过关键字约束可以有效缓解ovv问题，生成更加准确，多样的回答。
用关键词同时约束主题和情感代表论文论文A Syntactically Constrained Bidirectional-Asynchronous Approach for Emotional Conversation
用关键词作为硬约束，预测的一定出现在生成的文本中代表论文阅读Sequence to Backward and Forward Sequences: A Content-Introducing Approach to
用关键词作为软约束代表论文 Towards Implicit Content-Introducing for Generative Short-Text Conversation Systems

通过知识图谱生成可控文本

有些需要结合外部知识图谱来生成，比如演员的代表作，领域等等知识图谱可以帮助机器生成更加丰富，有意义的文本。
知识图谱代表论文Knowledge-based Review Generation by Coherence Enhanced Text Planning
给定 topic 集合，生成主题相关、段落集的文代表论文 Enhancing Topic-to-Essay Generation with External Commonsense Knowledge

通过键值对生成可控文本

通过标题生成可控文本

从原文拷贝内容输出到结果代表论文 Get To The Point: Summarization with Pointer-Generator Networks
通过标题生成可控文本

基于文本增强的文本生成

二、文本生成模型与挑战

1.模型

1.可持续学习的能力。面对多个任务时，需要有效的学习机会，实现跨任务知识的有效迁移。最近的一些工作主要是引入自适应的组合模块，保证模型的持续学习能力和知识迁移能力，同时采用轻量化微调技术。
三种典型的新任务学习方法是：

①完全的参数共享，在预训练模型的基础上做一次重新的训练；

②插入一些特定任务的参数；

在新任务的任务时选择性插入一些历史任务参数。

预训练模型(Pretrained Models)

利用大规模的无标注数据集预训练模型，这些模型可以为文本生成任务模型提供更好的模型初始化。
知识图谱代表论文Knowledge-based Review Generation by Coherence Enhanced Text Planning
prefix-tuning的改进代表论文使用对比前缀生成可控文本本 Controllable Natural Language Generation with Contrastive Prefixes

2.挑战

近年来由于深度学习的复兴，文本生成取得了巨大的进展，但依旧存在生成文本不流畅，答非所问等问题。生成信息丰富、连贯性强的评论文本是自然语言生成中一个具有挑战性的任务。

三、文本生成的小子类评论生成

现阶段就在做这个东西，接近于水军的意思。但是做中文的好难

四、可控文本生成实现的一般方法

1.调整解码策略（解码端加入一些限制词，增加目标词汇的概率。）
是生成的结果尽可能的包含在目标内容中（）
2.调整目标函数（以学习面向情感分类任务的目标，这样可以使得模型学习到情感信息。）
构建面向特定任务的可控训练目标函数
3.调整模型输入（这种方法主要是在模型输入的时候添加一些可控的因素，通过这些因素影响生成结果。）
通过输入控制元素影响生成结果

参考文献：
刘明童博士基于预训练语言模型的可控文本生成研究与应用
 知乎 Knowledge-Enhanced Text Generation: 知识增强的文本生成研究进展