adversarial evaluation of Dialogue models- 类似gan的思路来做对话评测

最新推荐文章于 2022-04-14 11:54:43 发布

猫猫猫玺

最新推荐文章于 2022-04-14 11:54:43 发布

阅读量605

点赞数

分类专栏： NLP-理论

本文链接：https://blog.csdn.net/u010578264/article/details/73604707

版权

4 篇文章 0 订阅

订阅专栏

通过一个回答能被判别出是人的回答还是模型的回答的程度来评估模型的好坏

corpus：message pairs(o, r)
o: $\{o_1, o_2, ..., o_n\}$ 表示原始的信息
r: $\{r_1, ,r_2, ..., r_m \}$ 表示response

generator

\sum o, r l o g P (r 1, . . ., r m | o 1, . . ., o n)

$\sum_{o, r}log P(r_1, ..., r_m|o_1, ...,o_n)$
discriminator

\sum o, r, y l o g P (y | o 1, . . ., o n, r 1, . . ., r m)

$\sum_{o, r, y}log P(y| o_1, ...,o_n, r_1, ..., r_m)$
y=1表示从training data中sample的结果

数据用的是邮件的回复对话，一半真实数据，discriminator分值为1，另一半是generator的生成数据，discriminator的分值为0。

discriminator和generator所倾向于依赖的特征是不同的。

discriminator强烈的依赖于长度特性。先前已经有文档表明seq2seq模型是有length bias。虽然它过于依赖长度特性，但是也不是啥坏事儿，起码表明了它能注意到一些人类之前指出的模型生成结果的弱点。
当长度相等时：discriminator中的rank和generator不一样，平均spearman系数为-0.2【spearman系数是啥O_o】discriminator更倾向于去选择那些不常见的词。同上，虽然生成回复的多样性是现有模型的一个常见缺点，但是discriminator更倾向于选择少见的回复，并不代表这样就是一个好的结果。