【论文摘要】A Pre-training Based Personalized Dialogue Generation Model with Persona-sparse Data

最新推荐文章于 2024-09-15 15:29:29 发布

LZJ209

最新推荐文章于 2024-09-15 15:29:29 发布

阅读量1.5k

点赞数 3

分类专栏： AAAI2020论文选读文章标签：人工智能机器学习 nlp AAAI

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/LZJ209/article/details/104303844

版权

本文探讨如何在现实生活中 persona-sparse 的对话数据集上训练预训练模型，以生成更人性化的回复。研究指出，直接在 persona-dense 数据集如 PERSONA-CHAT 上训练可能导致模型过度依赖个人信息。论文提出了一种新的模型和计算 persona 比重的方法，通过在微博数据集上收集评论和用户信息，并将其嵌入到预训练模型中。此外，还设计了一个二元分类器来调整输出特征中 persona 的比重。实验结果显示这种方法有效。

摘要由CSDN通过智能技术生成

本文仅为个人对论文的一点理解，如果有不对的地方烦请指正

戳我看论文原文

前置知识

1.大型预训练模型如GPT2的构造、原理、训练过程
2.Huggingface做的对大型预训练模型进行的fine-tune过程戳我看论文

如果这两个知识你都有了解的话这篇论文就不难理解了。

论文背景：

$\quad$ 1.为了让对话模型生成出更加human-like的回复，给模型以特定的性格背景等作为参考信息是必要的。
$\quad$ 2.大型预训练模型比如GPT2和BERT由于使用了大量的语句做训练，它们的语言能力非常的强大，生成出的语句非常的流畅。虽然大型预训练模型并没有针对某一个领域进行训练，但是人们通过在预训练的基础上再在目标数据集上进行二次训练，得到的结果大多好过只用目标数据集训练的结果。
$\quad$ 3.数据集PERSONA-CHAT是一个为了应对该任务而提出的一个数据集，数据集采用人工收集，在构造数据集时人们被要求按照给定的性格信息来进行模拟对话，由此造成参与者在短短的几句对话中包含了相当多的个人信息，论文称这种现象为"persona-dense"。

论文想要解决的问题：

$\quad$

最低0.47元/天解锁文章

关注

3
点赞
踩
9

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。