ACL 2024 | STICKERCONV:从零开始生成多模态共情反应

点击蓝字

55499237e495e6290967cf6e0ceb90ca.jpeg

关注我们

AI TIME欢迎每一位AI爱好者的加入!

09fe4e6f15d549ff51b9088d551b1322.png

ACL 2024

计算语言学协会(Association for Computational Linguistics,简称 ACL)是研究涉及人类语言的计算问题(通常称为计算语言学或自然语言处理(NLP))的首要国际科学和专业协会。计算语言学协会年会(Annual Meeting of the Association for Computational Linguistics)为该组织的旗舰会议,是自然语言处理与计算语言学领域最高级别的学术会议之一,是CCF A类推荐会议。第62届计算语言学协会年会(ACL 2024)将于2024年8月11日至16日在泰国曼谷举行。

题目: STICKERCONV: Generating Multimodal Empathetic Responses from Scratch

  • 作者:张逸群1*,孔繁恒1*,王培东1*,孙爽1,王凌帅1,冯时1@,王大玲1,张一飞1,宋凯嵩2

  • 类型:Long Paper, Main Conference

  • 单位:1东北大学,2阿里巴巴集团

  • 说明:*同等贡献,@通信作者

  • 论文链接:https://arxiv.org/abs/2402.01679

  • 项目仓库:https://github.com/ZhangYiqun018/StickerConv

  • 项目主页:https://neu-datamining.github.io/StickerConv/

  • 数据集:https://huggingface.co/datasets/NEUDM/StickerConv

摘要

表情包虽然被广泛认为可以增强在线互动中的共情交流,但在当前的共情对话研究中仍未得到充分探索,这主要是由于缺乏全面的数据集。在本文中,我们介绍了 STICKERCONV 智能体Agent4SC),它使用协作智能体交互来真实模拟人类使用表情包的行为,从而增强多模态共情交流。在此基础上,我们开发了多模态共情对话数据集 STICKERCONV,其中包括 12.9K 段对话、5.8K 个不重复的表情包和 2K 个不同的对话场景,其中一段对话示例如图1所示。该数据集是多模态共情生成的基准。进一步,我们提出了 PErceive and Generate Stickers(PEGS), 一种多模态共情回复生成框架,并辅以一套基于 大语言模型(LLM) 的综合共情评价指标。我们的实验证明,PEGS 能够有效生成与语境相关并能引起情感共鸣的多模态共情回复,从而有助于开发更细致入微、更引人入胜的共情对话系统。

f3cc583ee8a261441da704a913a55b1a.png图1 STICKERCONV中的多模态对话的例子, 人工智能助手与用户进行共情对话

主要工作

1. Agent for STICKERCONV

为了解决现有问题,我们引入了 Agent for STICKERCONV (Agent4SC),这是一个基于 LLM 的多智能体系统,旨在模仿人类的对话模式。Agent4SC的框架如图2所示 ,通过整合多个模块和表情包的策略性使用,Agent4SC旨在产生情感和多样化的共情回复,从而克服 LLM 在共情能力方面的固有缺陷。

2cd61ae61fac3213f2a1ce899c3c98a7.png图2 Agent4SC整体框架

2. PEGS

我们设计了一个多模态共情响应生成框架 PEGS,具有 PErceive 和 Generate Stickers 的能力。图3说明了我们框架的架构。根据不同的图像生成策略,我们基于该框架推导出了三个模型:PEGS-Ret/Gen/RAG,分别表示通过检索、生成和检索增强生成方法来得到图像回复。

1d1b1f625faf43f7a15989a8c6d52435.png图3 PEGS整体框架

3.多模态共情回复评价

LLM 能够像人类一样进行评分,为文本和表情包输出提供分数,从而实现全面的多模态评估系统。我们引入了三个基于 LLM 的指标:(1) 共情:我们通过模型的文本(Empathy-text,EMP-txt)和多模态(Empathy-multimodal,EMP-mm)回复来评估共情。(2)一致性:根据上下文,为文本和表情包回复分配一致性分数,简称CON。(3)排名:我们将不同模型的响应与同一上下文进行比较,根据质量、共情能力和一致性进行评估。

实验结果

表 1 报告了文本指标的结果,这些发现证实了PEGS框架在生成高质量和准确性的文本响应方面的有效性。

ModelBLEU-1/2/3/4Dist-1/2/3ROU_L.MET.CIDErBERTS.
Vicuna-text0.44/0.30/0.22/0.170.879/0.994/0.9990.310.370.390.878
Vicuna-tool0.43/0.29/0.22/0.170.870/0.989/0.9940.300.360.380.900
ChatGLM3-text0.42/0.28/0.21/0.160.806/0.981/0.9960.310.400.400.886
ChatGLM3-tool0.36/0.22/0.16/0.110.859/0.992/0.9980.260.340.200.899
PEGS-Ret0.46/0.32/0.25/0.200.839/0.989/0.9970.340.420.470.906
PEGS-RAG0.46/0.32/0.25/0.200.839/0.989/0.9970.340.420.470.906
PEGS-Gen0.47/0.33/0.26/0.210.848/0.990/0.9970.350.440.570.911
表1 PEGS和基线模型 生成文本质量结果
表 2 显示了多模态指标的结果,PEGS 在 f-MMr 方面表现出色,展示了其集成文本和贴纸的端到端结构,在多模态回复生成方面实现了高度一致性。
ModelFreq.MMr.f-MMr.
Vicuna-tool0.1410.7250.602
ChatGLM3-tool0.9050.6590.647
PEGS-Ret0.8500.6740.653
PEGS-RAG0.8470.6800.659
PEGS-Gen0.8110.6720.647
表2 多模态指标结果

表3列出了LLM的评估结果。相对于基线模型,两个工具学习模型在排名上优于文本模型。这凸显了表情包在增强共情交流方面的关键作用。根据基于 LLM 的指标结果,PEGS 可以在确保高度一致性的同时生成共情文本,并利用表情包来增强情感共鸣。表 2 和 PEGS-Gen的 EMP-mm (4.353) 表明,多模态回复的质量与其增强共情的程度直接相关。

ModelEMP-txtEMP-mmCON.Rank
Vicuna-text3.677-4.3224.527
Vicuna-tool3.8223.7994.2474.093
ChatGLM3-text3.691-4.3415.037
ChatGLM3-tool3.7003.7604.2204.400
PEGS-Ret3.8734.0404.3804.030
PEGS-RAG3.9274.0764.3703.900
PEGS-Gen3.7684.3534.4041.917
表3 基于LLM的指标的结果
表4显示了人工评估的结果。除Flu.外,PEGS在大多数评估指标中明显超过两个基线模型,从而证实了PEGS框架的有效性。在考虑对人类指标的所有评估时,PEGS-Gen非常突出,部分原因是它最少地使用特殊token,部分原因是其熟练的表情包生成能力(归功于端到端结构)。这些结果凸显了PEGS-Gen产生高质量、情感共鸣和多样化多模态回复的卓越能力。
ModelStiGQ.Et.Es.Con.Flu.Inf.StiD.
Vicuna-tool4.094.073.784.084.234.083.20
ChatGLM3-tool4.324.063.244.114.583.993.10
PEGS-Ret-4.114.174.224.364.093.40
PEGS-RAG3.374.122.924.224.364.103.80
PEGS-Gen4.534.294.194.374.474.263.60
表4 人工评估的结果

总结

我们探索了多模态共情回复的概念,并创建了STICKERCONV,这是第一个专门为多模态共情对话设计的数据集。我们开发了Agent for STICKERCONV,这是一个复杂的基于LLM 的多智能体系统,能够使用表情包模拟类似人类的交互,从而创建多模态共情回复。在STICKERCONV 的基础上,我们开发了 PErceive and Generate Stickers (PEGS),这是一种先进的多模态共情对话框架。该框架熟练地感知并生成表情包,有效增强了对话体验。此外,我们建立了一套基于LLM的多模态共情任务的综合评估指标。我们相信,这项工作将成为推进多模态共情对话系统领域研究的宝贵资产。


往期精彩文章推荐

6661f86d62882b2e2578d5c5b84439ae.png

点击  阅读原文  观看作者直播讲 解 回放 !

9a5c8a0d83e7e4277d3e1ad646017cfc.jpeg

记得关注我们呀!每天都有新知识!

 关于AI TIME 

AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。

迄今为止,AI TIME已经邀请了1800多位海内外讲者,举办了逾600场活动,超700万人次观看。

a7324f9efb40ba11f87850aa17e964fb.png

我知道你

在看

提出观点,表达想法,欢迎

留言

85e57a4de0a0131bdb7ca3a37039b5ae.gif

点击 阅读原文 观看作者直播讲解回放!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值