阅读笔记-阿里妈妈AI智能文案

最新推荐文章于 2024-04-17 21:21:07 发布

夏殇0808

最新推荐文章于 2024-04-17 21:21:07 发布

阅读量3.7k

点赞数

分类专栏：学习笔记 algorithm NLG

本文链接：https://blog.csdn.net/u012328476/article/details/102872416

版权

学习笔记同时被 3 个专栏收录

121 篇文章 1 订阅

订阅专栏

NLG

35 篇文章 3 订阅

订阅专栏

algorithm

9 篇文章 1 订阅

订阅专栏

文章目录

之前解决文本多样性的方法
相关基础工作
3 数据集
4 实验
- 4.1 开放领域的对话生成
- 4.2 推荐理由生成

阿里妈妈AI智能文案

之前解决文本多样性的方法

1. 修改loss

主要代表是李继伟2016a的相关研究，提出了新的目标函数MMI对 Seq2Seq进行建模。

原始的目标函数采用log-likelihood建模，

这个loss的问题是，如果一个回复在在训练集中出现得越多（越平常），在测试生成的时候生成这些回复的概率就会越高。所以基于**熵**对loss进行改进，使用互信息来衡量生成句子的优劣。

互信息对比与likelihood的区别在于，多了一项 $l o g p (T)$ 的惩罚项, 这样对于在训练集中经常出现的回复T，其语言模型 p(T)越大，最终得分越小。
最终目标函数可以写作：
$\hat{T}=\underset{T}{\arg \max }\{\log p(T | S)-\log p(T)\}$

1.1 MMI-antiLM

将上述惩罚项乘以一个控制因子 $\lambda$ ，得到 anti-language model(antiLM)，

$\hat{T}=\underset{T}{\arg \max }\{\log p(T | S)-\lambda \log p(T)\}$

虽然他会降低常用回复的出现，但是这些常用回复是通顺的，所以这样降低之后，会导致一些不符合句法的句子被生成。因此，使用截断式语言模型 $U (T)$ 来代替完整的语言模型 $p (T)$ ，

$U(T) = \prod_{i=1}^{N_t}p(t_k|t_1,t_2,...,t_{k-1}) \cdot g(k)$

$p(T) = \prod_{i=1}^{N_t}p(t_k|t_1,t_2,...,t_{k-1})$

其中，
$g(k)=\left\{\begin{array}{ll}{1} & {\text { if } k \leq r} \\ {0} & {\text { if } k>r}\end{array}\right.$

可以看出，前者比后者多出来一个 $g (k)$ ，这个参数就是减低重复回复的。回顾解码过程，生成一个词时，需要当前词和上一个生成的词，所以位于句子前面的词会涉及到后面所有词的解码，这样就会影响句子的多样性。所以当前词离得太远的词，就丢弃掉。此外，通过实验发现，解码过程越长，语言模型的影响力越大，句子出现不通顺的概率越大，所以通过限制距离，可以减少这种情况的发生。

1.2 MMI-bidi

考虑到贝叶斯公式，可以将MMI目标函数改成
$\log p(T)=\log p(T | S)+\log p(S)-\log p(S | T)$

这样
$\hat{T}=\underset{T}{\arg \max }\{\log p(T | S)-\lambda \log p(T)\}$
就可以改写成
$\begin{aligned} \hat{T}=\underset{T}{\arg \max }\{(1-\lambda) \log p(T | S)& \\+\lambda \log p(S | T)-\lambda \log p(S) \} \\=\underset{T}{\arg \max }\{(1-\lambda) \log p(T | S)+\lambda \log p(S | T)\} \end{aligned}$

引入权重之后，目标函数既可以看做是 $p (S ∣ T)$ 和 $p (T ∣ S)$ 之间的tradeoff了.

改写之后的函数就是MMI-Direct decodeing(MMI-bidi)

实际实验中，使用目标函数的第一项 $(1-\lambda) \log p(T | S)$ 来生成N个回答，然后使用第二项即 $\lambda \log p(S | T)$ 对N个回答重新排序。

这种方法的优点是得到的答案都是语法通顺的，因为是标准的seq2seq模型的答案，但是在排名上只是局部最优的。

不足
这些方法没有优化 encoder-decoder，不适合解决多目标数据，因为受限于准确性和多样性的tradeoff

2. 使用VAE模型

VAE方法引入了一个中间隐变量，并假设每一个隐变量的配置都对应于一个可行的响应。所以可以通过从变量中采样来得到不同的隐变量响应。但是VAE和CVAE都会遇到 KL-消逝的问题，即decoder在生成文本时，根本没有用到隐变量。

AE vs. VAE

对于AE，AE中学习的是 $e n c o d e r$ 和 $d e c o d e r$ ，只能从一个 $X$ ，得到对应的重构 $X$ 。但是无法生成新的样本。而 VAE可以让重构后的 $X$ 尽量符合某个指定的分布，只需要从这个分布中采样出来就可以恢复输入（比如一张图片）

无监督句子编码

标准的rnn的解码过程是利用当前词和上一个解码结果来生成下一个词的。这种方法虽然有效但是没有学到一个完整句子的词向量表示，都是一个词一个词学的。为了能学到这个全句子的隐向量，首先要找到句子和词向量的映射关系。有三种方法，句子AE,其中编码器和解码器都是rnn，但是这个模型在提取全局语义方面表现不好。剩下两种方法skip-thought和paragraph vector可以很好的对句子进行编码，但是不能用于generating settings，因为前者是一种无监督学习模型，输出是下一个句子而不是本身；后者是没有rnn的，

标准的AE的包栝编码 $\varphi_{enc}$ 、解码 $p(x|\vec{z}=\varphi_{enc})$ ，给定 $\vec{z}$ 最大化得到 $x$ 的概率、得到 $x$ 的编码。

VAE

是对标准 AE做了标准化处理，在ae的架构上引入了随机隐变量。
VAE 从 data 学到的是在 latent space 的 region，而不是单个点。换句话说是 encode 学到了一个概率分布 $q(\vec{z}|x)$ , 其中 $\vec{z}$ 是一个对角gaosigao’si’fen’bu补。
引入 KL divergence 让后验 q(z|x)接近先验 p(z)。这里的 motivation 在于如果仅用 reconstruction loss，q(z|x)的 variances 还是会很小（又和原有的单个点差不多了）

不管是VAE还是CVAE都会遇到KL消逝的问题。这是由于这类方法目标函数本身造成的。很有方法试图基于此改进，但无非是减弱解码器，或者增强编码器，由此对目标函数进行修改。

3 数据集

电商语料库，商家和用户评论及推荐。商家描述文本是属性词的堆砌，作为source，来生成像人写的推荐理由。有三百多万的source，平均每一条source有3.8个target。

4 实验

4.1 开放领域的对话生成

使用的是开源数据集 DailyDialog

4.2 推荐理由生成

使用的是自己构建的EGOODS数据集，模型是PyTorch，编码向量长度是128.

夏殇0808

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
阅读笔记-阿里妈妈AI智能文案

文章目录之前解决文本多样性的方法1. [李继伟2016a](https://arxiv.org/pdf/1510.03055.pdf)1.1 MMI-antiLM1.2 MMI-bidi2. [VAE](https://www.aclweb.org/anthology/K16-1002)AE vs. VAE无监督句子编码VAE相关基础工作2.1 编解码模型2.2 VAE和CVAE2.3 **Sel...
复制链接

扫一扫