AAAI2020 A pre-training based personalized dialogue generation model with persona-sparse data

最新推荐文章于 2021-12-17 21:21:15 发布

机智翔学长

最新推荐文章于 2021-12-17 21:21:15 发布

阅读量1k

点赞数

分类专栏：论文解读文章标签：自然语言处理

本文链接：https://blog.csdn.net/greatxiang888/article/details/106958337

版权

论文解读专栏收录该内容

3 篇文章 0 订阅

订阅专栏

文章目录

论文背景
论文想要解决的问题
论文贡献
模型

A pre-training based personalized dialogue generation model with persona-sparse data

基于预训练和个性化稀疏数据的个性化对话生成模型

论文背景

AAAI2020 解读
部分内容引用 https://blog.csdn.net/LZJ209/article/details/104303844
原文链接：https://arxiv.org/abs/1911.04700

1.为了让对话模型生成出更加human-like的回复，给模型以特定的性格背景等作为参考信息是必要的。
2.大型预训练模型比如GPT2和BERT由于使用了大量的语句做训练，它们的语言能力非常的强大，生成出的语句非常的流畅。虽然大型预训练模型并没有针对某一个领域进行训练，但是人们通过在预训练的基础上再在目标数据集上进行二次训练，得到的结果大多好过只用目标数据集训练的结果。
3.数据集PERSONA-CHAT是一个为了应对该任务而提出的一个数据集，数据集采用人工收集，在构造数据集时人们被要求按照给定的性格信息来进行模拟对话，由此造成参与者在短短的几句对话中包含了相当多的个人信息，论文称这种现象为"persona-dense"。 [复制]

论文想要解决的问题

1.真实的对话中，只有很少的对话会涉及到个人信息，我们称现实生活中的对话是“persona-sparse”的，上述persona-dense的数据集并不符合真实情况。
2.如果直接用大型预训练模型在PERSONA-CHAT类似的数据集上进行训练，那么模型很有可能过分的注重个人信息，从而造成句句都离不开个人信息，这在上述数据集上可能会得到很好的结果，但是却并不真实。
3.由于真实的对话中，涉及到个人信息的语句非常的少，所以直接在persona-sparse的数据集上训练很有可能模型更注重那些不包含个人信息的语句，个人信息在训练的过程中成了噪音。
（总结：用persona-dense数据集不行，用普通数据集也不行）

论文贡献

提出了一个可以在persona-sparse的数据集上训练的预训练模型。
提出了一种通过模型自动计算persona比重的方法。

模型

变量解释

目标：根据 dialogue context C和responder的target persona T，生成流畅的response Y
$\mathop{\arg\max}_{Y'}P(Y'|C,T)$
其中，persona T 视为一些属性的集合（例如性别、地点、个人兴趣） $T=\{t_1, t_2, ..., t_N \}$ ，且每个属性可以用键值对 $t_i=<k_i,v_i>$ 表示。
dialogue context $C=\{ (U_1,T_1),...,(U_M,T_M)\}$ 包含了对话中的多轮(turns)【也就是话语 $U_i$ 】和 persona $T_i$ 。

框架

在这里插入图片描述
个性化对话生成模型框架：编码器和解码器共享同一组参数。dialogue context和target persona使用编码器独立编码，并且它们的编码进入每个解码器块中的注意路由模块。训练一个动态权重预测器来衡量每条路线的贡献。

Encoding

Encoding with Personas
在这里插入图片描述

Attention

Attention Routing:
target persona $E_T$ , the dialogue context $E_C$ , previously decoded tokens $E_{prev}$
$E_{prev}$ 作为query。 $E_T$ ， $E_C$ ， $E_{prev}$ 采用3个multi-head attention 分别作为key与value。
$O_T = MultiHead(E_{prev},E_T,E_T)$
$O_C = MultiHead(E_{prev},E_C,E_C)$
$O_{prev} = MultiHead(E_{prev},E_{prev},E_{prev})$
前两个公式采用unmasked 双向 self-attention 来获取更多有效的交互信息。最后一个公式采用masked self-attention来避免看到“golden truth” token.

然后进行融合，persona 权重 $\alpha \in [0,1]$ :
$O_{merge} = \alpha O_T +(1-\alpha)O_C +O_C+ O_{prev}$
$\alpha$ 越大，包含的个性化信息越多。

自动计算persona比重

$\alpha$ 怎么得到:
设计一个二分类器 $P_{\theta}(r|E_C)$ 。输入dialogue context $E_C$ ，判断这个training dialogue是否为persona related ，相关则r=1，不相关r=0。
那么这个二分类器的confidence就可以当作权重：
$\alpha = P_{\theta}(r=1|E_C)$
我们可以通过一个heuristic script产生标签，该脚本通过一些规则（如单词匹配）来判断是否persona related。
二分类器的目标函数：
$L_W(\theta) = -\sum_{i}r_i log P_{\theta}(r_i|E_C) + (1-r_i) log [1-P_{\theta}(r_i|E_C)]$

language model

Pre-training and Fine-tuning
原始的LM，和gpt2相同
$L_{LM}(\phi) = -\sum_{i} log P_{\phi} (u_i |u_{i-k}, ..., u_{i-1})$
考虑到dialogue context encoding $E_C$ 和target persona encoding $E_T$ 的：
$L_{D}(\phi) = -\sum_{i} log P_{\phi} (u_i |u_{i-k}, ..., u_{i-1}, E_C, E_T)$

最终的目标函数

$L(\phi,\theta) = L_D(\phi) + \lambda_1 L_{LM}(\phi) + \lambda_2 L_W(\theta)$

END
(公式还是挺难敲的。。)

机智翔学长

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
AAAI2020 A pre-training based personalized dialogue generation model with persona-sparse data

文章目录论文背景论文想要解决的问题论文贡献模型变量解释框架EncodingAttention自动计算persona比重language model最终的目标函数 A pre-training based personalized dialogue generation model with persona-sparse data基于预训练和个性化稀疏数据的个性化对话生成模型论文背景AAAI2020 解读部分内容引用 https://blog.csdn.net/LZJ209/article/de
复制链接

扫一扫