点击蓝字
关注我们
AI TIME欢迎每一位AI爱好者的加入!

ACL 2024
计算语言学协会(Association for Computational Linguistics,简称 ACL)是研究涉及人类语言的计算问题(通常称为计算语言学或自然语言处理(NLP))的首要国际科学和专业协会。计算语言学协会年会(Annual Meeting of the Association for Computational Linguistics)为该组织的旗舰会议,是自然语言处理与计算语言学领域最高级别的学术会议之一,是CCF A类推荐会议。第62届计算语言学协会年会(ACL 2024)将于2024年8月11日至16日在泰国曼谷举行。
题目: STICKERCONV: Generating Multimodal Empathetic Responses from Scratch
作者:张逸群1*,孔繁恒1*,王培东1*,孙爽1,王凌帅1,冯时1@,王大玲1,张一飞1,宋凯嵩2
类型:Long Paper, Main Conference
单位:1东北大学,2阿里巴巴集团
说明:*同等贡献,@通信作者
论文链接:https://arxiv.org/abs/2402.01679
项目仓库:https://github.com/ZhangYiqun018/StickerConv
项目主页:https://neu-datamining.github.io/StickerConv/
数据集:https://huggingface.co/datasets/NEUDM/StickerConv
摘要
表情包虽然被广泛认为可以增强在线互动中的共情交流,但在当前的共情对话研究中仍未得到充分探索,这主要是由于缺乏全面的数据集。在本文中,我们介绍了 STICKERCONV 智能体(Agent4SC),它使用协作智能体交互来真实模拟人类使用表情包的行为,从而增强多模态共情交流。在此基础上,我们开发了多模态共情对话数据集 STICKERCONV,其中包括 12.9K 段对话、5.8K 个不重复的表情包和 2K 个不同的对话场景,其中一段对话示例如图1所示。该数据集是多模态共情生成的基准。进一步,我们提出了 PErceive and Generate Stickers(PEGS), 一种多模态共情回复生成框架,并辅以一套基于 大语言模型(LLM) 的综合共情评价指标。我们的实验证明,PEGS 能够有效生成与语境相关并能引起情感共鸣的多模态共情回复,从而有助于开发更细致入微、更引人入胜的共情对话系统。

主要工作
1. Agent for STICKERCONV
为了解决现有问题,我们引入了 Agent for STICKERCONV (Agent4SC),这是一个基于 LLM 的多智能体系统,旨在模仿人类的对话模式。Agent4SC的框架如图2所示 ,通过整合多个模块和表情包的策略性使用,Agent4SC旨在产生情感和多样化的共情回复,从而克服 LLM 在共情能力方面的固有缺陷。

2. PEGS
我们设计了一个多模态共情响应生成框架 PEGS,具有 PErceive 和 Generate Stickers 的能力。图3说明了我们框架的架构。根据不同的图像生成策略,我们基于该框架推导出了三个模型:PEGS-Ret/Gen/RAG,分别表示通过检索、生成和检索增强生成方法来得到图像回复。

3.多模态共情回复评价
LLM 能够像人类一样进行评分,为文本和表情包输出提供分数,从而实现全面的多模态评估系统。我们引入了三个基于 LLM 的指标:(1) 共情:我们通过模型的文本(Empathy-text,EMP-txt)和多模态(Empathy-multimodal,EMP-mm)回复来评估共情。(2)一致性:根据上下文,为文本和表情包回复分配一致性分数,简称CON。(3)排名:我们将不同模型的响应与同一上下文进行比较,根据质量、共情能力和一致性进行评估。
实验结果
表 1 报告了文本指标的结果,这些发现证实了PEGS框架在生成高质量和准确性的文本响应方面的有效性。
Model | BLEU-1/2/3/4 | Dist-1/2/3 | ROU_L. | MET. | CIDEr | BERTS. |
---|---|---|---|---|---|---|
Vicuna-text | 0.44/0.30/0.22/0.17 | 0.879/0.994/0.999 | 0.31 | 0.37 | 0.39 | 0.878 |
Vicuna-tool | 0.43/0.29/0.22/0.17 | 0.870/0.989/0.994 | 0.30 | 0.36 | 0.38 | 0.900 |
ChatGLM3-text | 0.42/0.28/0.21/0.16 | 0.806/0.981/0.996 | 0.31 | 0.40 | 0.40 | 0.886 |
ChatGLM3-tool | 0.36/0.22/0.16/0.11 | 0.859/0.992/0.998 | 0.26 | 0.34 | 0.20 | 0.899 |
PEGS-Ret | 0.46/0.32/0.25/0.20 | 0.839/0.989/0.997 | 0.34 | 0.42 | 0.47 | 0.906 |
PEGS-RAG | 0.46/0.32/0.25/0.20 | 0.839/0.989/0.997 | 0.34 | 0.42 | 0.47 | 0.906 |
PEGS-Gen | 0.47/0.33/0.26/0.21 | 0.848/0.990/0.997 | 0.35 | 0.44 | 0.57 | 0.911 |
表 2 显示了多模态指标的结果,PEGS 在 f-MMr 方面表现出色,展示了其集成文本和贴纸的端到端结构,在多模态回复生成方面实现了高度一致性。
Model | Freq. | MMr. | f-MMr. |
---|---|---|---|
Vicuna-tool | 0.141 | 0.725 | 0.602 |
ChatGLM3-tool | 0.905 | 0.659 | 0.647 |
PEGS-Ret | 0.850 | 0.674 | 0.653 |
PEGS-RAG | 0.847 | 0.680 | 0.659 |
PEGS-Gen | 0.811 | 0.672 | 0.647 |
表3列出了LLM的评估结果。相对于基线模型,两个工具学习模型在排名上优于文本模型。这凸显了表情包在增强共情交流方面的关键作用。根据基于 LLM 的指标结果,PEGS 可以在确保高度一致性的同时生成共情文本,并利用表情包来增强情感共鸣。表 2 和 PEGS-Gen的 EMP-mm (4.353) 表明,多模态回复的质量与其增强共情的程度直接相关。
Model | EMP-txt | EMP-mm | CON. | Rank |
---|---|---|---|---|
Vicuna-text | 3.677 | - | 4.322 | 4.527 |
Vicuna-tool | 3.822 | 3.799 | 4.247 | 4.093 |
ChatGLM3-text | 3.691 | - | 4.341 | 5.037 |
ChatGLM3-tool | 3.700 | 3.760 | 4.220 | 4.400 |
PEGS-Ret | 3.873 | 4.040 | 4.380 | 4.030 |
PEGS-RAG | 3.927 | 4.076 | 4.370 | 3.900 |
PEGS-Gen | 3.768 | 4.353 | 4.404 | 1.917 |
表4显示了人工评估的结果。除Flu.外,PEGS在大多数评估指标中明显超过两个基线模型,从而证实了PEGS框架的有效性。在考虑对人类指标的所有评估时,PEGS-Gen非常突出,部分原因是它最少地使用特殊token,部分原因是其熟练的表情包生成能力(归功于端到端结构)。这些结果凸显了PEGS-Gen产生高质量、情感共鸣和多样化多模态回复的卓越能力。
Model | StiGQ. | Et. | Es. | Con. | Flu. | Inf. | StiD. |
---|---|---|---|---|---|---|---|
Vicuna-tool | 4.09 | 4.07 | 3.78 | 4.08 | 4.23 | 4.08 | 3.20 |
ChatGLM3-tool | 4.32 | 4.06 | 3.24 | 4.11 | 4.58 | 3.99 | 3.10 |
PEGS-Ret | - | 4.11 | 4.17 | 4.22 | 4.36 | 4.09 | 3.40 |
PEGS-RAG | 3.37 | 4.12 | 2.92 | 4.22 | 4.36 | 4.10 | 3.80 |
PEGS-Gen | 4.53 | 4.29 | 4.19 | 4.37 | 4.47 | 4.26 | 3.60 |
总结
我们探索了多模态共情回复的概念,并创建了STICKERCONV,这是第一个专门为多模态共情对话设计的数据集。我们开发了Agent for STICKERCONV,这是一个复杂的基于LLM 的多智能体系统,能够使用表情包模拟类似人类的交互,从而创建多模态共情回复。在STICKERCONV 的基础上,我们开发了 PErceive and Generate Stickers (PEGS),这是一种先进的多模态共情对话框架。该框架熟练地感知并生成表情包,有效增强了对话体验。此外,我们建立了一套基于LLM的多模态共情任务的综合评估指标。我们相信,这项工作将成为推进多模态共情对话系统领域研究的宝贵资产。
往期精彩文章推荐
记得关注我们呀!每天都有新知识!
关于AI TIME
AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。
迄今为止,AI TIME已经邀请了1800多位海内外讲者,举办了逾600场活动,超700万人次观看。
我知道你
在看
提出观点,表达想法,欢迎
留言
点击 阅读原文 观看作者直播讲解回放!