论文解读《LiveChat：A Large-Scale Personalized Dialogue Dataset Automatically Constructed from 在线直播》_livechat: a large-scale personalized dialogue data-CSDN博客

本文链接：https://blog.csdn.net/Wang_Dou_Dou_/article/details/144174288

引言：一个还不错的个性化数据集…

✅ NLP 研 2 选手的学习笔记

笔者简介：Wang Linyong，NPU，2023级，计算机技术
研究方向：文本生成、大语言模型
论文链接：https://aclanthology.org/2023.acl-long.858/，2023 ACL CCF-A 长文
项目链接：https://github.com/gaojingsheng/LiveChat
中文标题：《个性化对话生成的最新趋势：数据集、方法和评估综述》

在这里插入图片描述

文章目录

0 摘要（Abstract）
1 前言（Introduction）
2 相关工作（Related Work）
3 数据集构建（Dataset Construction）
4 模型（Models）
5 实验（Experiments）
- 5.1 回复建模结果（Results of Response Modeling）
- 5.2 收信人识别结果（Results of Addressee Recognition）
6 迁移学习（Transfer Learning）
7 结论（Conclusion）
8 参考文献(References)

0 摘要（Abstract）

● 开放域对话系统近年来取得了可喜的进展。虽然最先进的对话代理（agent）是建立在大规模基于文本的社交媒体数据和大型预训练模型（pre-trained models）的基础上的，【现存问题】但由于预训练模型的有限可迁移性以及 Reddit 和微博等公共数据集的分布有偏差，不能保证这些代理也可以在快速增长的场景中表现良好，例如直播（live streaming）。为提高实时开放域场景的基本回复能力并建立一个基准，本文提出了LiveChat数据集，由 133 万个现实生活中的中文对话组成，包括 351 个角色的近 3800 个平均会话和每个角色的细粒度配置。LiveChat 是通过处理互联网上大量的直播视频自动构建的，自然属于多方对话的范畴，应该考虑谁对谁说什么。本文针对回复建模（response modeling）和收件人识别（addressee recognition） 这两个关键任务，提出了基于先进技术的检索基线。实验结果验证了利用角色画像（persona profiles）和每个角色更大的平均会话的积极作用。对 LiveChat 上先进的基于生成的模型的可移植性进行了基准测试，并为当前的挑战提出了一些未来方向。

1 前言（Introduction）

● 建立对话系统与人类自然对话一直是人工智能中持续时间最长的目标之一(Zhou等人；Roller等人，2021)。为了引导聊天机器人在不同场景下正确地回复，需要基于具有多个领域的大规模数据集来训练对话代理（agent）。当前的对话数据集主要利用在线论坛帖子来建立用户之间的回复关系，如 Reddit (Mazaré等人，2018；Zhong et al., 2020)和微博(Zheng et al., 2019；Qian等，2021)。尽管当前对话语料库具有可扩展性和多样性，但在这些对话数据集上预训练的对话模型在应用于全新领域（如直播）时无法有效执行。其原因在于在线帖子（post）构建的数据与下游会话任务所需的数据之间存在固有的领域差距。即使是建立在大型预训练语言模型（PLMs）上的最新的（SOTA）对话模型，如 LaMDA （Thoppilan等人，2022）和 ChatGPT，也严重依赖于公开可用的纯文本数据。这些大型预训练模型的分布在不同领域仍然不同（Zeng et al., 2022），并且与学习其他模态中包含信息的模型不同，例如视频。

● 视频也是野外重要的对话数据源，具有很大的多样性。作为一种流行的基于视频的对话形式，流媒体是一种同时转录和广播的广播场景，涉及娱乐、生活分享、教育等（Wongkitrungrueng和Assarut， 2020）。【研究意义】基于视频的对话是人类在日常生活中有效传播和交换信息的主要方式之一，自然符合人们的沟通方式。它们也是对话数据集的理想来源，对训练对应下游虚拟人场景的大规模对话模型至关重要，如虚拟油管用户（Virtual YouTubers）、虚拟员工和虚拟名人。然而，从网络视频中提取数据的工作并没有受到足够的关注，尽管视频对话更面向生活，自然丰富。

● 目前视频来源的口语语料库可以分为两大类（Mahajan和Shaikh， 2021）：有脚本的和无脚本的。前者是指计划好的对话，如电影和电视剧本(Danescu和Lee, 2011；Li等人，2016)。后者意味着在真实情况下的自发对话，例如，Majumder 等人的访谈数据集（2020）。【现存问题-关于数据集】然而，由于无法持续获取和处理各种类型的视频，以及难以从中提取有效的对话会话，以往的视频对话无法满足训练一个满意的聊天机器人的规模。例如，在没有人工标注的情况下，从电影中自动构建有效的对话会话是一项挑战。因此，视频直播中的大规模对话数据集对于促进该领域的研究至关重要。直播是典型的一对多的聊天场景，一般由一名主播和多名观众参与。建立这样一个数据集的挑战在于检索主播和观众之间的回复关系。不像基于帖子的社交媒体，帖子和回复之间有明确的链接，直播现场的主播的回复与观众的评论没有明确的回复关系。

● 为了解决上述问题，该文提出了一种新颖的自动视频对话构建方法，并从直播领域构建了一个大规模的个性化对话数据集 LiveChat。这是一项重要的工作，因为该数据集来自基于视频的来源，不同于之前的大多数文本数据。同时，据我们所知，这几乎是唯一可以有效地无休止地从视频中提取对话会话的工作。

● 如Huang等人（2020）所述，现有开放域聊天机器人的主要挑战之一是缺乏一致的个性，因为这些智能体是在不同的对话中训练的，每个对话都没有或只有有限的说话人信息，而 LiveChat 自然包含独特的角色特征（特别是主播）。为促进该领域的研究，收集了每个主播的公开可用信息，并添加手动注释以创建角色配置文件（persona profiles），出于隐私考虑，个人信息将匿名化。与之前的个性化对话数据集相比(Zhang等人，2018b；Mazaré等，2018；郑等人，2019；钟等，2020；Qian等人，2021；Xu et al., 2022c)，我们的数据集提供了更细粒度的人物画像，更重要的是，每个说话者的平均会话数大大超过之前的会话数，如表 1 所示。这对个性化对话建模是有益的。

在这里插入图片描述

表1：所提出数据集与其他现有的开放域对话数据集的比较（主要用于个性化对话生成和收件人识别任务）。* 为医学领域。Persona 表示数据集中是否存在个人信息。在 MPCs 中，收件人（Addressee）是指数据集是否包含收件人识别问题的回复标签。Avg. Sessions 表示每个角色的平均会话数，- 表示数据集中没有提到。请注意，LiveChat 可以自动和持续地从视频中构建对话会话，而其他视频来源的工作，如 RealMedDial，则依赖于众包工作者。

● 此外，直播也是一个涉及两个以上对话者的 多方对话（Multi-Party Conversation， MPC） 场景。图 1 展示了 LiveChat 的一个示例。在直播过程中，流媒体主播自然要识别要回复哪些受众。收集了公开的直播视频，并处理主播的回复和所有观众的评论，以形成多个会话，每个会话包含一个主播的回复和多个收件人评论候选人。提出了一种回复者与发布者匹配的方法，以准确地找到发布者回复的正确候选。通过这种方式，我们可以利用回复与谁的关系来为两个经典任务构建数据集：回复建模（response modeling） 和 收件人识别（addressee recognition）。在直播中提出的两个经典对话任务可以帮助解决统一数据集中的 MPC 问题，这对于在直播中构建一个实用的对话代理至关重要。

在这里插入图片描述

图1：LiveChat 的会话示例。一个主播将在评论区回复一个观众的评论。

● 综上所述，我们的主要贡献如下：

本文提出一个具有独特自动对话构建方法的大规模个性化对话数据集 LiveChat，用于来自无数纯天然的现场直播。据我们所知，我们的 LiveChat 不仅是最大的视频来源的对话数据集，其中包含详细的角色配置和最大的每个角色的平均会话，而且是发布给社区的最大的收件人识别 MPC 数据集。
在 回复建模（response modeling） 和 收件人识别（addressee recognition） 两个基准任务上的充分实验证明，所提出的角色选择方法是有益的，并且每个角色的平均会话数确实有助于对话的建模。设计了在这两项任务上具有相当性能的检索基线，以促进进一步的研究，并建立更真实的生活领域对话系统。
本文进一步研究了生成模型的迁移学习，表明预训练的对话模型在微调后的视频源数据下表现不佳，而大型 PLMs 在少样本设置下表现出更丰富的信息量，但相关性较差。这引起了人们对在此类视频数据集中探索大型 PLMs 的领域适应的兴趣。

2 相关工作（Related Work）

● 对话数据集（Dialogue Datasets）。一个合格的开放域对话模型通常在足够的监督数据集上进行训练。由于社交媒体的可获取性和特殊性，目前大规模的开放域对话数据集主要是从基于文本的社交媒体构建的，如Reddit (Mazaré et al., 2018；Zhong et al., 2020)，DouBan（Wu et al., 2017），WeiBo（Qian et al., 2021）。此外，包含人物角色标注的大规模数据集对于构建个性化对话系统至关重要。当前角色数据集中使用的角色配置文件可以分为两类：基本配置文件（basic profiles）和文本配置文件（text profiles）。Zheng et al.（2019）和Qian et al.（2021）的基本廓线由年龄、性别和位置等人格特征组成。文本配置文件主要由众包组成(Zhang等人，2018b；Xu et al., 2022c)或自动收集(Mazaré等，2018；Zhong et al., 2020)描述性人物角色句。【本文工作-数据集-的优势】在 LiveChat 中，收集了更细粒度的基本配置文件和文本配置文件，每个角色的平均会话比以前的工作要大得多。
此外，当发生由两个以上说话人组成的对话时，多方对话数据集至关重要。然而，大多数现有的 MPC 数据集（Danescu和Lee, 2011；Lowe等人，2015；Firdaus等人，2020）没有明确的回复给谁的注释，因此不能用于收件人（addressee）识别。Elsner 和 Charniak（2008）在 Linux IRC 中手动将分解的会话语句分组为单独的会话。Kummerfeld 等人（2019）从 Ubuntu IRC 频道提出了一个更大的 MPC 数据集，该数据集手工标注了回复的结构，极大地促进了 MPC 问题的研究。我们的实时聊天自然源自多方参与的场景，其规模也大大超过了之前的场景，这归功于自动回复谁的匹配方法。
对于口语对话语料库(Xu et al., 2022a；Majumder等人，2020；Li等人，2016；Danescu和Lee， 2011)，大多数都是预先编写的或手动转录的，本质上很难扩展，因为基于视频或音频的来源受限，人们可以毫不费力地提取有效的对话会话。

● 个性化回复建模（Personalized Response Modeling）。早期工作使用来自预定义信息的显式角色画像或来自对话历史的隐式角色向量来生成个性连贯的回复。显式模型使用角色描述、属性或提取的个人资料来学习个性化回复建模。Kim 等人（2014）利用角色知识库在基于检索的对话系统中提取预定义的三元组和实体。Qian 等人（2018）提出了一种基于预先指定的用户画像生成个性化回复的显式角色模型。Song 等人（2019）提出了一种记忆增强架构，利用上下文中的人物信息来生成多样化和可持续的对话。另一方面，像 Zhang 等人（2019）这样的隐式方法通过保持与话题和人物角色相关的某些特征来产生一致的回复，而 Li 等人（2021）将说话者的所有对话历史编码到隐式人物角色中。Zhong 等人（2022）设计了一个个性选择模块，从用户对话历史中获取丰富准确的人物信息。【本文工作-数据集-的特点】在 LiveChat 中，我们利用明确的角色信息来维护角色的一致性（consistency）。

● 收件人识别（Addressee Recognition）。收件人识别也被称为明确的收件人建模，旨在了解在多方对话中谁与谁说话。之前的工作主要集中在预测一次对话中最后一句话的目标收件人(Ouchi and Tsuboi, 2016；Zhang等，2018a)。后来，Le等人（2019a）提出了一个谁对谁（who-to-whom）的模型，用于预测所有缺省的收件人以了解整个对话。Gu 等人（2021）进一步利用预训练语言模型以统一的方式学习这个问题。遵循这种学习范式，能够研究基于可用的角色配置文件的实时聊天中的个性化收件人识别。

3 数据集构建（Dataset Construction）

3.1 数据集概述（Dataset Overview）

● 在直播中构建的原始数据来自抖音（中国抖音），抖音是中国最大的直播和短视频平台之一，拥有超过 1000万 的流媒体用户和约 8亿 用户。我们选择了 351 位与观众经常互动和聊天的代表性主播。通过在直播间长时间捕捉公开可用的直播视频和观众的评论，检索出具有大量评论的视频片段。
整个对话构建过程如图 2 所示，分为 3 个步骤。前两步是通过处理视频和将观众评论与主播回复匹配来构建对话会话，最后一步是用细粒度的人物画像（包括基本画像和文本画像）来丰富数据集。

3.2 对话构建（Dialogue Construction）

● 首先，我们必须收集流媒体的原始语音文本。由于原始数据是视频片段的形式，我们需要将其转录为文本语句。利用视频格式转换器提取语音内容。利用自动语音识别（ASR）模型将这些语音片段转录为带有时间戳的文本，并在大规模泛娱乐数据集上进行了微调。因此，原始数据被转录为流媒体的口语文本。ASR 的细节见附录 A。

附录 A：数据集构建的详细信息（Dataset Construction Details）
● 所构建的数据集由 1332073 个对话组成，每个对话由一个主播回复和几个观众评论组成。LiveChat 和原始数据的整体统计如表 7 所示。

表7：LiveChat 的统计

● 自动语音识别的细节（Details of Automatic Speech Recognition）。我们的 HuoShan ASR（火山ASR）工具来自中国字节跳动公司。ASR 在大型娱乐数据集上进行了预训练，其中包括时尚、食品、游戏和唱歌等领域。在 64k 多个领域的中文视频识别数据集上进行了测试，错误率（CER）达到 3.17%。

● 回复建模中的对话样本（Dialogue samples in response modeling）。在回复建模中，我们从原始对话数据集中选择所有匹配的对话对。图 5 显示了几个构造好的对话案例。每个观众的评论都与一个流媒体回复相关联。在我们基于检索的回复建模实验中，给定一个听众评论，一个批次中的所有回复都是负面回复。

图5：在 LiveChat 中，一个主播和几个观众之间的对话。

● 其次，收集原始的观众评论数据，提出一种回复对象匹配方法来检索主播和观众之间的回复关系；我们提出的匹配方法主要基于特别适用于流媒体场景的观察结果：在一个受众发送消息一段时间后，该受众将在评论区中回复该受众。通常，主播会在回复之前重复或总结观众的评论，这有助于其他观众理解主播在说什么。我们只是专注于根据上述观察提取有效的对话会话，并过滤掉其他不满意的对话会话。在此基础上，给出整个匹配过程的伪代码（算法 1）。对于每个观众的评论，我们在一分钟内浏览所有由主播转录的发言。如果在抄录的传讯者的话语中有此评论的重复或摘要，它们将被记录为匹配的一对。注意，我们使用 BOW（bag of words）和预训练中文 BERT （Cui等人，2021）的组合作为匹配函数。在检索到匹配的对后，迭代地连接转录的主播的语句，以满足结尾标点，并满足足够长度的所需阈值 $τ$ ，因为来自 ASR 工具的转录回复有时可以是来自主播最初表达的句子。此外，如果回复与多个评论匹配，则选择时间最近的一个。

● 对于每个构建的对话对，回复将重复评论。为了防止模型以这种方式过度拟合，我们删除了每个回复的重复前缀。此外，考虑到该场景的特殊性，我们过滤掉了诸如 “谢谢**（感谢**）” 或 “欢迎**（欢迎**）” 等错过有价值的对话信息的噪声对。最后，我们可以基于这些匹配对构建数据集。

3.3 角色提取（Persona Extraction）

● 最后一步是在 LiveChat 中构建详细的角色配置文件，它由基本配置文件和文本配置文件组成。继 PersonalDialog （Zheng等人，2019）和 Pchatbot （Qian等人，2021）之后，基本配置文件包含年龄、性别和位置。除了这些，直播中的基本配置还包括主播角色和直播室信息，如直播时间、粉丝数量、直播风格等。这些信息的一部分可以从直播室或主播的主页上检索到，此外，我们还众包了一组问题，每个标注者都需要通过观看这些主播的流媒体视频来标记那些缺失的内容。关于数据隐私和标注者的细节在伦理考虑和附录 A 中详细阐述。
文本简介由几个句子组成，这些句子描述了主播的个人习惯或特征。文本画像中的句子提取分为两种方式：基于规则和基于分类器。与Mazaré等人（2018）和Zhong等人（2020）类似，我们从所有历史发言中收集角色句子，并按规则将主播所说或写的内容发布在抖音上。最终选择的句子必须满足以下要求：1)字数在 4-20 个之间；2)内容包括 “我(I)”；3)至少一个动词；4)至少一个名词或形容词。此外，还训练了一个额外的角色分类器，以进一步完善文本配置。基于分类器的方法是通过一个学习到的分类器来区分单个句子是否包含人物角色事实，在本例中，该分类器是从 DuLemon （Xu et al., 2022c）中训练出来的。

附录 A：数据集构建的详细信息（Dataset Construction Details）
● 角色注释（Persona Annotations） 。我们的角色注释包括基本配置和文本配置，一个主播的角色配置示例如图 6 所示。基于规则和人物角色分类器从历史帖子和对话中收集文本信息，由母语为汉语且熟悉直播的众包工作者收集并标注基本信息。除了主播主页上的基本信息外，众包工作者还需要标注一些可能会影响主播讲话风格的额外信息。我们在图 7 中展示了我们的注释接口。对于每个流媒体，标注者需要根据提供的直播视频回答这些问题。

图6：一个主播的标注的基本概要和收集的文本概要。请注意，在最终发布的数据集中，出于隐私考虑，所有基本配置文件都被重新索引为数字。

图7：注释用户界面。

3.4 在线聊天（LiveChat）

● 将每对观众评论和主播回复以及每个主播对应的角色相结合，创建了 LiveChat，这是直播领域的第一个大规模个性化对话数据集。值得注意的是，直播中的每个会话不仅包含评论和回复，还包含同一时间段内的多个候选评论，详情见附录 A。虽然本文讨论的直播由单回合对话组成，但通过持续追踪主播与同一受众在一定时间范围内的互动，可以很容易地构建多轮对话。通过对个人信息进行转换、删除和匿名化，如道德考量所述，确保 LiveChat 中的数据隐私，包括人物画像。
对于 LiveChat，本文提出两个基准任务：(1)回复建模；(2)收件人确认。匹配的对话对可以直接用于回复建模，而其他候选评论可以组合在一起用于训练收件人识别任务。

附录 A：数据集构建的详细信息（Dataset Construction Details）
● 候选观众的选择（Selection of candidate audiences） 。LiveChat 中的主播会有选择地回复一个观众，对所有观众评论的分割如图 8 所示。我们记录了所有评论中匹配的评论和回复的时间戳。匹配的第 $(i - 1)$ 个注释与第 $i$ 个注释之间的注释就是该流的第 $i$ 个回复的候选注释。在收件人识别中，主播旨在检索这些候选人中的哪一个评论来回复。

图8：对候选评论进行分割。

4 模型（Models）

4.1 任务定义（Task Definition）

● 回复建模（Response Modeling）。假设我们有一个对话数据集 $\mathcal D = {(C_i, R_i, P_i)}^n_{i=1}$ ，其中 $i∈1,…, n, C_i$ 是输入的对话上下文， $R_i$ 是回复， $P_i$ 是 $C_i$ 被调查者对应的人物画像。目标是从 $D$ 学习对话模型 $g$ ，其中对于任何新的输入上下文 $C_j, g$ 可以根据其给定的角色 $P_j$ 生成回复 $R_j$ 。

● 已有工作主要包括基于检索和基于生成的方法。为了研究所提出的人物画像的定量影响，我们采用基于检索的体系结构进行主要实验。对于实时聊天中高级模型的可迁移性能研究，主要是基于生成的模型。

● 收件人识别（Addressee Recognition）。收件人识别给定一个流媒体 $S_i$ 与人物档案 $P_i$ ，一个回复 $R_i$ ，和一组评论 $C_{i1}, C_{i2}, …, C_{im}$ ，其中 $\forall j \in 1, \dots, m$ ，每条评论 $C_{ij}$ 都与观众 $A_j$ 相关联。目标是识别哪个 $C_{ij}$ （或 $A_j$ ）是 $R_i$ 的目标。请注意，此任务的目的是在回复建模中识别适当的收件人评论，而不是适当的主播回复。关于候选注释设置的数据集细节可以在附录 A 中看到。

4.2 模型架构（Architecture）

● 为了研究如何在 LiveChat 中利用现有的对话基线模型，构建了 3 个基于检索的模型，用于回复建模和收件人识别。此外，基于 5 个基于生成的预训练语言模型（PLMs）研究了 LiveChat 上的迁移学习。下面是我们在本文中使用的模型的详细描述。

4.2.1 基于检索的模型（Retrieval-based models）

● CoBERT。图 3 描述了基于检索的人物角色模型的整体架构，其灵感来自 Zhong 等人（2020）。

在这里插入图片描述

图3：我们的基于检索的模型架构。

● 我们通过分离的 BERT 对上下文、回复和文本配置文件进行编码（Devlin等人，2019）。给定输入的用户上下文，我们利用基本配置文件作为流的初始化嵌入，并在基本配置文件和上下文之间添加一个 [SEP] 令牌。在我们的实验中，我们只使用主播的 ID 信息而不是所有的注释。对于多个文本配置文件句子，我们将它们与 [SEP] 连接起来以满足最大输入标记的长度。在检索 3 个个体表示后，实现了两个交叉注意力（co-attention）模块（Zhong等人，2020）以更好地进行特征融合。最后，我们得到上下文嵌入和候选回复嵌入，然后应用点积计算匹配得分并计算交叉熵损失以优化整个网络。

● TwinBERT。当前基于检索的高级模型一般可以分为上下文回复匹配双流框架(Humeau等人，2019；Lu等人，2020)和基于 PLMs 的单流框架（Gu等人，2020）。为了保持双编码器模型与 CoBERT 模型的一致性，在 TwinBERT 中引入了注意力模块（Lu et al., 2020），但没有额外输入人物画像来比较个人信息的效果。

● BERT。BERT （Devlin等人，2019）是典型的单流网络。通过将上下文和回复候选的连接提供给模型，可以以统一的方式执行交互和聚合操作。在推理阶段，我们可以对上下文和所有回答候选之间的输出得分进行排序，最终获得匹配的回答。注意，在 CoBERT、TwinBERT 和 BERT 的实验中，我们使用了中文版本的预训练 BERT 检查点。

4.2.2 基于生成的模型（Generation-based models）

● BART 。Bart（Shao等人，2021）是一种用于预训练序列到序列模型的去噪自编码器，通过从任意损坏的文本中重建原始文本进行预训练，是一种通用的基于 Transformer 的基线 PLM。

● CDialGPT。Wang 等人（2020）提出了一种从大型开放域对话数据集预训练的中文 GPT。该数据集来自中国的在线论坛，如微博和豆瓣。

● EVA2.0。它是一种用于开放域对话建模的编码器-解码器 PLM (Gu等人，2022)，其架构与 BART 类似。该模型在 60GB 高质量对话数据集上进行预训练，该数据集由 WDC-Dialogue （Zhou等人，2021）和一些额外的copra（如电影剧本或众包数据集）组成。WDCDialogue 来源于中文社交媒体，是 EVA2.0 的主要训练数据集。

● GLM 。GLM（Du et al., 2022）是一种基于自回归空白填充的大规模模型，用于统一所有语言任务。原始的中文 GLM 在中文语料库上进行了 100亿 个参数的预训练。

● GPT3。GPT3（Brown et al., 2020）是一个具有 1750亿 参数的自回归语言模型，在许多 NLP 任务上表现出令人感兴趣的性能，并在多语言零样本、单样本和少样本设置中表现出强大的能力。

5 实验（Experiments）

● 我们为 4.1 节中描述的 2 个任务训练检索基线：回复建模（response modeling）和收件人识别（addressee recognition）。本文还研究了当前流行的基于生成的模型在 LiveChat 上的迁移学习。包括训练细节和评估指标的实验设置可以在 B 节中找到。

5.1 回复建模结果（Results of Response Modeling）

● 在这一阶段中，我们全面研究了角色画像、文本画像提取方法以及每个角色更大的平均会话的影响。主要架构遵循 CoBERT 的工作（Zhong等人，2020）。请注意，没有额外的用户画像（persona profile）输入的 CoBERT 与 TwinBERT 相等（Lu等人，2020）。

● 人物角色的影响（Impact of Personas）。基于检索的回复建模的测试性能如表 2 所示。显然，使用文本配置文件（text profile）和基础配置文件（basic profile）的 CoBERT 在我们的实验设置中取得了最好的性能，说明文本配置文件（text profile）和基础配置文件（basic profile）都有利于回复建模。这是因为基本画像在表征说话人方面具有重要意义，而文本画像包含了详细的个人描述，这些描述可能与候选人的回答有关。独占文本画像比单个基本画像得分更高，即文本画像的详细人物特征对模型性能有更本质的影响。

在这里插入图片描述

表2：不同检索设置的自动评价指标结果的比较（%）。

● 平均会话的影响（Impact of Average Sessions）。为了研究每个角色的平均会话长度对模型性能的影响，我们在不同的数据规模和基于 CoBERT 的角色 ID 数量以及完整的角色配置上进行了实验。因为数据规模等于人物 ID 数乘以平均会话数，同样的人物 ID 数量，数据规模越大，和同样的数据规模，ID 越少，都表明每个人物有更多的平均会话。为了减少不同规模训练数据的影响，做到公平的比较，我们也保持相同的数据规模（100k），同时将 ID 的数量从 150 个减少到 15 个，如表 3 所示。确保测试集的角色 ID 都在前面看到过。因此，所有的测试角色 ID 都被合并到训练设置中。
实验结果表明：(1)在相同的 ID 数量下，平均会话数越多，模型对说话人个性化应答的捕捉能力明显增强。(2)在回复建模中，平均会话数比 ID 数更显著。每个角色的会话数的优先级也证明了所提出的数据集比其他现有数据集的优越性，因为 LiveChat 在这一指标上特别优于其他数据集。

在这里插入图片描述

表3：在不同的数据规模和角色 ID 数量下测试性能（单位%）。

● 文本画像的影响（Influence of Text Profiles）。为了提取我们的文本画像，我们对不同提取方法的效果进行了实证分析，如表 4 所示。随机来自用户是指我们随机选择主播的句子作为他或她的文本配置文件，随机来自数据集是指从整个数据集中随机选择。长度表示所有连接的文本配置文件的最大截断长度。实验结果表明，规则和分类器都提高了模型的性能，说明规则可以在一定程度上过滤噪音句子，而 DuLemon 中的人物角色定义可以有效地训练分类器以进一步细化文本配置文件。此外，人物角色句子长度的增加也会丰富人物角色画像，提高识别效果。

在这里插入图片描述

表4：测试不同角色选择方法的性能（单位%）。

5.2 收信人识别结果（Results of Addressee Recognition）

● 之前的作品(Gu等人，2021；Le等人，2019b)采用 BERT 对主播回复和多个用户评论之间的关系进行分类，我们采用类似的方法，进一步探索角色画像的好处。与 BERT 相比，TwinBERT 用于研究单流和双流架构之间的差异，CoBERT 用于研究收集到的人物画像的影响。
表 5 列出收件人识别结果。实验表明，单流BERT 的性能优于 双流TwinBERT。原因在于，通过将上下文和回复的连接提供给一个统一的 BERT，可以充分地通过注意力机制进行交互和聚合操作。此外，CoBERT 比 TwinBERT 检索到更好的性能，表明我们的角色画像也有利于收件人识别。

6 迁移学习（Transfer Learning）

● 为了进一步研究预训练对话模型在 LiveChat 上的性能，对 BART、Chinese CDialGPT 和 EVA2.0 进行微调，研究预训练对话语料库是否有助于案例的学习。后两者在基于文本的社交媒体的对话数据上进行训练。在 GLM 和 GPT3 上进行了上下文学习，以探索大型语言模型（LLMs）在这个视频数据集上的少样本可迁移性。表 6 和图 4 中使用的数据是不同的，关于训练数据和我们的上下文模板的细节在附录 B.1 中阐述。
表 6 显示了结果。首先，BART 的分类性能优于 EVA2.0 和 Chinese DialGPT；它证实了我们的 LiveChat 的领域距离现有预训练对话模型中使用的对话数据集的领域很远。因此，直接从其他对话领域训练的模型迁移是一项具有挑战性的工作。然而，LLMs 由于其强大的泛化能力提供了这个问题的解决方案。虽然微调模型的自动评估结果优于 LLMs，原因是微调使模型能够学习直播聊天的内在分布。在 LLMs 的人工评估结果中 score 2 的百分比明显大于微调的分数，这意味着在丰富的信息量方面表现更好。本文将这归因于 LLMs 中包含的大量知识和很少的演示来引出这些知识。尽管如此，我们看到 score 1 与 BART 的性能差距，这表明通过 LLMs 对 LiveChat 的参数高效域适应等方式来增加上下文连贯性有很大的空间，同时保持其原有的强大功能。

在这里插入图片描述

表6：不同预训练生成模型的自动和人工评估。2/1/0 的得分模式详见附录 B.2。Score 是平均得分。

在这里插入图片描述

图4：GLM 和 GPT3 在不同样本数量上的上下文学习结果。

附录 B：训练和评估细节（Training and Evaluation Details）
B.1 训练细节（Training Details）
● 基于检索的模型（Retrieval-based models）。图 9 提供了每个角色的会话长度分布。针对某些角色 ID 会话数不足的问题，对 2400 个以上会话的角色 ID 进行过滤，研究平均会话数和角色特征对会话数的影响。这样，我们总共得到了 150 个人物 ID。在训练过程中，在所有基于检索的对话实验中，如果之前没有声明，则使用 400k 个对话进行训练，10k 个对话进行测试。批量大小设置为 24，这也意味着回复建模的动态搜索库的大小为 24。

图9：LiveChat 中的会话长度分布。

● 在收件人识别（addressee recognition）中，候选评论的数量从 1 到 数百 不等。因此，我们将每个会话处理为一个回复和 10 个候选评论。如果评论太多，我们选择最后 10 条评论，其中最后一句话是相应的评论。如果一个会话的评论数小于 10 条，我们在前面的会话中添加评论，使每个会话的评论总数保持在 10 条。我们在这里设置的批量大小也是 24。
● 在训练过程中，我们将最大输入长度和输出长度设置为 64，最大文本配置文件长度设置为 512，epoch 和 learning rate 设置为 30 和 1e-5。以上两个对话任务中的所有实验都是在 Nvidia Tesla V100s 上进行的。

● 基于生成的模型（Generation-based models）。在微调预训练语言模型的过程中，保留了其初始训练参数的最原始的实验设置，使用的 GPT3 版本是 text-davincian-002。在表 6 中，用于微调的训练数据集为 400k，测试数据集为 10k。由于 GPT3 API 的成本问题，我们在图 4 中 GPT3 的每个实验只评估了 1k 个样本。为了与 GPT3 保持一致，GLM 使用的所有数据都与 GPT3 相同。因此，表 6 的结果与图 4 的结果不一致。
对于 GLM 和 GPT3 的上下文学习，n-shots的模板表示为 “我是一名线上直播间的主播，爱好是唱歌，与粉丝聊天等。以下是我在直播间和粉丝的互动。粉丝说：[context-1]。我说：[response-1]。… 粉丝说：[contextn]。我说：[response-n]。以下是另一段我在直播间和粉丝的互动。粉丝说：[上下文]。我说：[RESPONSE-TEST] ”(我是一名网络直播主播，爱好是唱歌，和粉丝聊天等。以下是我在客厅与粉丝的互动。一个粉丝说：[情境-1]我说：[回复-1]…一个粉丝说：[情境N]我说：[回复]。这是我和我的粉丝在客厅的另一个互动。一个粉丝说：[上下文测试]我说：[回复测试])。
[CONTEXT-K] 和 [RESPONSE-K] （0 < k <= n）是为 LLMs 提供的 n 次样本情况。[CONTEXT-TEST] 和 [RESPONSE-TEST] 是一个测试对话对的两个语句，LLMs 需要返回 [RESPONSETEST]。

● 作为补充，我们还在不同的样本数量上进行了一系列上下文学习的实验，以研究演示的影响。ROUGE1 和 BLEU1 结果如图 4 所示。随着样本数的逐渐增加，表演也越来越精彩。然而，当样本数量超过 8 个时，由于演示的随机手动选择，LLMs 的性能略有下降。

7 结论（Conclusion）

● 本文提出了 LiveChat，一个来自直播领域的中文视频个性化对话数据集，包含详细的人物画像。它保持着最大的每个角色的平均会话数，也是用于收件人识别的最大的MPC数据集，因为直播是一种自然的 MPC 场景。这是由于 reply-to-whom 匹配方法能够从实时视频中自动提取对话会话，而大多数视频提取方法不能。在两个基准任务上的实验结果表明，选择的角色轮廓和每个角色的平均会话次数有利于学习说话人的个性化回复和收件人确认。此外，BART 与其他预训练对话模型和 LLMs 的比较，揭示了这个视频源对话领域的特殊性，希望对 LiveChat 的 LLMs 的参数高效迁移学习进行进一步的研究。