文本生成方法梳理

最新推荐文章于 2024-01-18 02:07:51 发布

一个好梦

最新推荐文章于 2024-01-18 02:07:51 发布

阅读量7.8k

点赞数 3

分类专栏：自然语言处理文章标签：自然语言处理深度学习人工智能

本文链接：https://blog.csdn.net/u013596454/article/details/120529749

版权

nlp领域个人还是非常喜欢文本生成这个方向，现在大致梳理一下文本生成的相关问题。

1. 文本生成方案

目前业界的文本生成方案主要有三种：

（1）规则模板。典型的技术就是AIML语言。这种回复实际上需要人为设定规则模板，对用户输入进行回复。

（2）生成模型。主要用encoder-decoder结构生成回复。典型技术是Seq2Seq

、transformer。

（3）检索模型。利用文本检索与排序技术从问答库中挑选合适的回复。

从业界应用广度来说，应该是1，3更广，2的范围较为狭窄。不过对于该领域的爱好者而言，明显是2更具备吸引力，因为2可深挖的点远远多于其他两者，所以本文也只关注2这个方向。

对于AIer来说，这肯定是个如雷贯耳，手到擒来的名字了，该模型不多做介绍，只说一下单纯的Seq2Seq用于文本生成存在的问题：

负面情感的回复
疑问句式的回复
回复的多样性较低
回复一致性低：比如用户说“我喜欢旅游”，bot回复“我不喜欢，我喜欢”，这就存在问题。
上下文逻辑冲突；背景有关的一些信息，比如年龄其实不可控；
安全回复居多，对话过程显得很无聊。
- 训练时用到的数据都是人类的对话语料，往往充斥着已知和未知的背景信息，使得对话成为一个”一对多”的问题，比如问年龄和聊天气，回答包括不同的人针对同样的问题产生的不同的回复。
- 但是神经网络无论多复杂，它始终是一个一一映射的函数。
- 最大似然只能学到所有语料的共通点，所有背景，独特语境都可能被模型认为是噪音，这样会让模型去学习那些最简单出现频率高的句子
  
  ，比如”是的”之类的回复，我们称之为安全回复。
对话语料的局限性
- 对话语料只是冰山的一角，实际上对话语料中潜藏着很多个人属性、生活常识、知识背景、价值观/态度、对话场景、情绪装填、意图等信息，这些潜藏的信息没有出现在语料，建模它们是十分困难的。

除此之外，Seq2Seq在多轮对话方面建模也不是很友好，目前已有的一些研究虽然基于多轮对话做了尝试，不过模型层面还是比较复杂的，训练的话鲁棒性也不是那么好。

模型结构：

此结构思路相对简单，只要熟悉Bahdanau attention机制基本可以很轻松的看懂论文的内容：

Bahdanau attention机制：
$e_i^t = v^T tanh(W_{h}h_i + W_{s}s_t + b_{attn})$

$a^t = softmax(e^t)$

$h_{t}^{*} = \sum_{i}{a_i^t h_i} \quad 上下文向量$

$P_{vocab} = softmax(V'(V[s_t, h_t^*] + b) + b')\ 词表概率分布，[s_t,h_t^*]代表concat$

$P(w) = P_{vocab}(w)$

$loss_{t} = -logP(w_t^*)\quad t时刻生成目标词w_{t}^{*}$

$\frac{1}{T} \sum_{t=0}^{T}loss_t$

关注