北美计算语言学协会年会(The North American Chapter of the Association for Computational Linguistics,NAACL)成立于1998年,每年举办一届,是自然语言处理和计算语言学领域的重要国际学术会议。NAACL 2025 将于2025年4月29日至5月4日在美国新墨西哥州阿尔伯克基市召开。
本期分享5篇上交大跨媒体语言
01
A Cognitive Evaluation Benchmark of Image Reasoning and Description for Large Vision-Language Models
论文作者:宋秀杰,吴梦玥,朱其立,张淳皓,陈砚诒
论文类型:Long Paper
论文简介:尽管大视觉-语言模型(LVLMs)最近取得了一些成功,但它们的认知能力尚未得到全面测试。受人类认知测试中广泛使用的 “Cookie Theft” 图片描述任务启发,我们提出了一种新的评估基准,利用富含语义的图像来评估LVLMs的高级认知能力。该基准包含251张图像及全面的标注,定义了八种推理能力,并包括一项图像描述任务和一项视觉问答任务。我们对一些LVLMs的评估表明,LVLMs与人类在认知能力上仍存在显著差距。
完整论文:https://arxiv.org/abs/2402.18409
项目仓库:https://github.com/X-LANCE/CogBench
02
MobA: Multifaceted Memory-Enhanced Adaptive Planning for Efficient Mobile Task Automation
论文作者:朱梓臣,汤浩,李妍思,刘丁烨,许洪深,兰焜耀,张丹阳,姜懿轩,周浩,王辰润,张思拓,孙良泰,王熠笑,孙羽恒,陈露,俞凯
论文类型:Demo Track
论文简介:当前基于多模态大语言模型(MLLM)的智能代理在处理设备上的复杂图形用户界面(GUI)交互时面临重大挑战。这些挑战源于GUI环境的动态性和结构化特性,包括文本、图像及空间关系的融合,以及不同页面和任务间操作空间的变动性。为了解决这些局限性,我们提出了MobA,这是一种新型基于MLLM的移动助手系统。MobA引入了自适应规划模块,结合反思机制以进行错误恢复,并能够根据真实环境上下文和执行模块能力动态调整计划。此外,多维记忆模块提供全面的记忆支持,以增强系统的适应性和执行效率。我们同时构建了MobBench数据集,以支持复杂的移动交互任务。在MobBench和AndroidArena上的实验结果表明,MobA在动态GUI环境下表现优越,能够高效完成复杂的移动任务。
完整论文:https://arxiv.org/abs/2410.13757
项目仓库:https://github.com/OpenDFM/MobA
03
MM-StoryAgent: Immersive Narrated Storybook Video Generation with a Multi-Agent Paradigm across Text, Image and Audio
论文作者:徐薛楠,梅嘉豪,李晨亮,吴宇宁,严明,赖少鹏,张霁,张佶,吴梦玥
论文类型:Demo Track
论文简介:大语言模型(LLMs)和人工智能生成内容(AIGC)的快速发展加速了AI原生应用的出现,例如基于AI的故事书,它们能够自动生成吸引儿童的故事内容。然而,在提升故事吸引力、丰富叙述表达能力以及开发开源评估基准和框架方面仍然面临挑战。因此,我们提出并开源了MM-StoryAgent,它能够生成具有沉浸式旁白的视频故事书,提供精炼的情节、角色一致的图像以及多通道音频。MM-StoryAgent设计了一种多智能体框架,该框架利用大语言模型(LLMs)和多种专家工具(生成模型和API),跨多个模态生成具有表现力的叙述视频。该框架通过多阶段写作流水线提升故事吸引力。此外,它通过将音效与视觉、音乐和叙述内容相结合,增强了沉浸式叙事体验。MM-StoryAgent提供了一个灵活的开源平台,支持替换和扩展生成模块。在文本故事质量和多模态对齐方面的客观和主观评估验证了我们提出的MM-StoryAgent系统的有效性。
完整论文:https://arxiv.org/abs/2503.XXXXX
项目仓库:https://github.com/X-PLUG/MM_StoryAgent
04
A Diverse and Effective Retrieval-Based Debt Collection System with Expert Knowledge
论文作者:罗嘉鸣,罗未一,孙国庆,祝梦辰,唐海峰,吴梦玥,朱其立
论文类型:Industry Track
论文简介:自动化债务催收系统对于提高金融行业的运营效率和降低成本至关重要。然而,保持话术多样性、提高上下文相关性和连贯性等挑战使这一任务尤为困难。本文基于某大型商业银行的真实债务人-催收员对话数据,提出了一种自动化债务催收系统。我们从实际的债务催收对话中构建了话术库,并提出了一个两阶段的自动化催收系统。实验结果显示,我们的系统提高了话术多样性并提高了回复的相关性。
完整论文:https://arxiv.org/abs/2503.XXXXX
05
MedEthicEval: Evaluating Large Language Models Based on Chinese Medical Ethics
论文作者:金豪桉,石佳成,徐汉辉,朱其立,吴梦玥
论文类型:Industry Track
论文简介:大型语言模型 (LLM) 在推进医学应用方面表现出巨大潜力,但它们在解决医学伦理挑战方面的能力仍未得到充分探索。本文介绍了 MedEthicEval,这是一种新颖的基准,旨在系统地评估医学伦理领域的 LLM。我们的框架包含两个关键组成部分:知识,评估模型对医学伦理原则的掌握;以及应用,重点关注它们在不同场景中应用这些原则的能力。为了支持这个基准,我们咨询了医学伦理研究人员并开发了三个数据集来解决不同的伦理挑战:公然违反医学伦理、具有明显倾向的优先级伦理困境以及没有明显解决方案的两难伦理困境。MedEthicEval 是理解 LLM 在医疗保健领域的伦理推理能力的重要工具,为在医学环境中负责任和有效地使用 LLM 铺平了道路。
完整论文:http://arxiv.org/abs/2503.02374
项目仓库:https://github.com/X-LANCE/MedEthicEval