ACL 2024 | STICKERCONV：从零开始生成多模态共情反应

AITIME论道

于 2024-07-25 18:21:02 发布

阅读量1.3k

点赞数

原文链接：https://mp.weixin.qq.com/s?__biz=MzIzOTAxOTk3Nw==&mid=2247526178&idx=1&sn=d9497a5a5a4b9062540f4fa0e79c9afd&chksm=e86dd2eaf3f62658c52e1a6222bc93073a159e06d20760a2a0d5074fb5efb4186e45c45aed6d&scene=126&sessionid=0

版权

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入！

ACL 2024

计算语言学协会（Association for Computational Linguistics，简称 ACL）是研究涉及人类语言的计算问题（通常称为计算语言学或自然语言处理（NLP））的首要国际科学和专业协会。计算语言学协会年会（Annual Meeting of the Association for Computational Linguistics）为该组织的旗舰会议，是自然语言处理与计算语言学领域最高级别的学术会议之一，是CCF A类推荐会议。第62届计算语言学协会年会(ACL 2024)将于2024年8月11日至16日在泰国曼谷举行。

题目: STICKERCONV: Generating Multimodal Empathetic Responses from Scratch

作者：张逸群1*，孔繁恒1*，王培东1*，孙爽1，王凌帅1，冯时1@，王大玲1，张一飞1，宋凯嵩2
类型：Long Paper, Main Conference
单位：1东北大学，2阿里巴巴集团
说明：*同等贡献，@通信作者
论文链接：https://arxiv.org/abs/2402.01679
项目仓库：https://github.com/ZhangYiqun018/StickerConv
项目主页：https://neu-datamining.github.io/StickerConv/
数据集：https://huggingface.co/datasets/NEUDM/StickerConv

摘要

表情包虽然被广泛认为可以增强在线互动中的共情交流，但在当前的共情对话研究中仍未得到充分探索，这主要是由于缺乏全面的数据集。在本文中，我们介绍了 STICKERCONV 智能体（Agent4SC），它使用协作智能体交互来真实模拟人类使用表情包的行为，从而增强多模态共情交流。在此基础上，我们开发了多模态共情对话数据集 STICKERCONV，其中包括 12.9K 段对话、5.8K 个不重复的表情包和 2K 个不同的对话场景，其中一段对话示例如图1所示。该数据集是多模态共情生成的基准。进一步，我们提出了 PErceive and Generate Stickers（PEGS），一种多模态共情回复生成框架，并辅以一套基于大语言模型（LLM）的综合共情评价指标。我们的实验证明，PEGS 能够有效生成与语境相关并能引起情感共鸣的多模态共情回复，从而有助于开发更细致入微、更引人入胜的共情对话系统。

图1 STICKERCONV中的多模态对话的例子, 人工智能助手与用户进行共情对话

主要工作

1. Agent for STICKERCONV

为了解决现有问题，我们引入了 Agent for STICKERCONV （Agent4SC），这是一个基于 LLM 的多智能体系统，旨在模仿人类的对话模式。Agent4SC的框架如图2所示，通过整合多个模块和表情包的策略性使用，Agent4SC旨在产生情感和多样化的共情回复，从而克服 LLM 在共情能力方面的固有缺陷。

图2 Agent4SC整体框架

2. PEGS

我们设计了一个多模态共情响应生成框架 PEGS，具有 PErceive 和 Generate Stickers 的能力。图3说明了我们框架的架构。根据不同的图像生成策略，我们基于该框架推导出了三个模型：PEGS-Ret/Gen/RAG，分别表示通过检索、生成和检索增强生成方法来得到图像回复。

图3 PEGS整体框架

3.多模态共情回复评价

LLM 能够像人类一样进行评分，为文本和表情包输出提供分数，从而实现全面的多模态评估系统。我们引入了三个基于 LLM 的指标：（1）共情：我们通过模型的文本（Empathy-text，EMP-txt）和多模态（Empathy-multimodal，EMP-mm）回复来评估共情。（2）一致性：根据上下文，为文本和表情包回复分配一致性分数，简称CON。（3）排名：我们将不同模型的响应与同一上下文进行比较，根据质量、共情能力和一致性进行评估。

实验结果

表 1 报告了文本指标的结果，这些发现证实了PEGS框架在生成高质量和准确性的文本响应方面的有效性。

Model	BLEU-1/2/3/4	Dist-1/2/3	ROU_L.	MET.	CIDEr	BERTS.
Vicuna-text	0.44/0.30/0.22/0.17	0.879/0.994/0.999	0.31	0.37	0.39	0.878
Vicuna-tool	0.43/0.29/0.22/0.17	0.870/0.989/0.994	0.30	0.36	0.38	0.900
ChatGLM3-text	0.42/0.28/0.21/0.16	0.806/0.981/0.996	0.31	0.40	0.40	0.886
ChatGLM3-tool	0.36/0.22/0.16/0.11	0.859/0.992/0.998	0.26	0.34	0.20	0.899
PEGS-Ret	0.46/0.32/0.25/0.20	0.839/0.989/0.997	0.34	0.42	0.47	0.906
PEGS-RAG	0.46/0.32/0.25/0.20	0.839/0.989/0.997	0.34	0.42	0.47	0.906
PEGS-Gen	0.47/0.33/0.26/0.21	0.848/0.990/0.997	0.35	0.44	0.57	0.911

表1 PEGS和基线模型生成文本质量结果
表 2 显示了多模态指标的结果，PEGS 在 f-MMr 方面表现出色，展示了其集成文本和贴纸的端到端结构，在多模态回复生成方面实现了高度一致性。

Model	Freq.	MMr.	f-MMr.
Vicuna-tool	0.141	0.725	0.602
ChatGLM3-tool	0.905	0.659	0.647
PEGS-Ret	0.850	0.674	0.653
PEGS-RAG	0.847	0.680	0.659
PEGS-Gen	0.811	0.672	0.647

表2 多模态指标结果

表3列出了LLM的评估结果。相对于基线模型，两个工具学习模型在排名上优于文本模型。这凸显了表情包在增强共情交流方面的关键作用。根据基于 LLM 的指标结果，PEGS 可以在确保高度一致性的同时生成共情文本，并利用表情包来增强情感共鸣。表 2 和 PEGS-Gen的 EMP-mm （4.353）表明，多模态回复的质量与其增强共情的程度直接相关。

Model	EMP-txt	EMP-mm	CON.	Rank
Vicuna-text	3.677	-	4.322	4.527
Vicuna-tool	3.822	3.799	4.247	4.093
ChatGLM3-text	3.691	-	4.341	5.037
ChatGLM3-tool	3.700	3.760	4.220	4.400
PEGS-Ret	3.873	4.040	4.380	4.030
PEGS-RAG	3.927	4.076	4.370	3.900
PEGS-Gen	3.768	4.353	4.404	1.917

表3 基于LLM的指标的结果
表4显示了人工评估的结果。除Flu.外，PEGS在大多数评估指标中明显超过两个基线模型，从而证实了PEGS框架的有效性。在考虑对人类指标的所有评估时，PEGS-Gen非常突出，部分原因是它最少地使用特殊token，部分原因是其熟练的表情包生成能力（归功于端到端结构）。这些结果凸显了PEGS-Gen产生高质量、情感共鸣和多样化多模态回复的卓越能力。

Model	StiGQ.	Et.	Es.	Con.	Flu.	Inf.	StiD.
Vicuna-tool	4.09	4.07	3.78	4.08	4.23	4.08	3.20
ChatGLM3-tool	4.32	4.06	3.24	4.11	4.58	3.99	3.10
PEGS-Ret	-	4.11	4.17	4.22	4.36	4.09	3.40
PEGS-RAG	3.37	4.12	2.92	4.22	4.36	4.10	3.80
PEGS-Gen	4.53	4.29	4.19	4.37	4.47	4.26	3.60

表4 人工评估的结果

总结

我们探索了多模态共情回复的概念，并创建了STICKERCONV，这是第一个专门为多模态共情对话设计的数据集。我们开发了Agent for STICKERCONV，这是一个复杂的基于LLM 的多智能体系统，能够使用表情包模拟类似人类的交互，从而创建多模态共情回复。在STICKERCONV 的基础上，我们开发了 PErceive and Generate Stickers （PEGS），这是一种先进的多模态共情对话框架。该框架熟练地感知并生成表情包，有效增强了对话体验。此外，我们建立了一套基于LLM的多模态共情任务的综合评估指标。我们相信，这项工作将成为推进多模态共情对话系统领域研究的宝贵资产。

往期精彩文章推荐