计算机前沿技术-人工智能算法-大语言模型-最新论文阅读-2024-09-20

本文链接：https://blog.csdn.net/fyf2007/article/details/142404216

计算机前沿技术-人工智能算法-大语言模型-最新论文阅读-2024-09-20

1. Multimodal Fusion with LLMs for Engagement Prediction in Natural Conversation

Authors: Cheng Charles Ma, Kevin Hyekang Joo, Alexandria K. Vail, Sunreeta
Bhattacharya, 'Alvaro Fern’andez Garc’ia, Kailana Baker-Matsuoka, Sheryl
Mathew, Lori L. Holt, Fernando De la Torre

使用大型语言模型进行自然对话中的参与度预测的多模态融合
在这里插入图片描述

摘要：
本文通过使用可穿戴计算设备（即“智能眼镜”），在自然对话中分析个体的非言语行为，以预测二人互动中的参与度。研究的目的是检测对话中的不感兴趣或困惑的迹象，以期提高对人类交流的理解，并在专业环境中促进更有效的协作，通过富有同情心的虚拟互动提供更好的心理健康支持，并增强沟通障碍者的可及性。研究收集了34名参与者在非正式对话中的多模态数据，并引入了一种使用大型语言模型（LLMs）的新融合策略，将多种行为模态整合到“多模态记录”中，用于行为推理任务。该方法即使在初步实施中也显示出与成熟融合技术相当的性能，显示出进一步研究和优化的潜力。

创新点：

提出了一种新颖的数据集，包含使用Pupil Invisible智能眼镜记录的自然、非剧本化的对话。
引入了一种新的融合策略，使用大型语言模型（LLMs）作为推理引擎，将行为度量融合到多模态文本表示中。

算法模型：

使用了智能眼镜中的传感器（如场景摄像头、眼动追踪摄像头、麦克风和惯性测量单元）来捕捉人类行为。
通过大型语言模型（如GPT-4）来模拟参与者，并回答会话结束时的参与度问卷，以此作为预测参与度的手段。

实验效果：

该方法在预测参与度方面达到了与成熟融合技术相当的性能。
在预测具体回答和情感维度（如情感价值和唤醒度）方面，模型显示出与人类参与者回答的中等程度一致性。

推荐阅读指数：
★★★★☆

推荐理由：
这篇文章在多模态学习和情感计算领域提供了新的视角，特别是在使用大型语言模型来理解和预测人类行为方面。它不仅提出了一个新的数据集，而且还展示了一种创新的方法来分析和利用这些数据，对于希望在自然语言处理和人机交互领域进行创新的研究者来说，这是一篇值得阅读的文章。

2. Towards Data-Centric RLHF: Simple Metrics for Preference Dataset Comparison

Authors: Judy Hanwen Shen, Archit Sharma, Jun Qin

走向以数据为中心的RLHF：偏好数据集比较的简单指标

摘要：
本文讨论了如何通过人类反馈进行强化学习（RLHF）来调整语言模型以符合人类偏好。理想情况下，应该为每个下游应用精心收集和定制偏好数据。然而，实践中，通常使用少数公开的偏好数据集来训练RLHF的奖励模型。尽管新的偏好数据集不断被引入，但目前还没有系统的努力来衡量和比较这些数据集。本文从规模、标签噪声和信息内容三个角度系统地研究偏好数据集，并提出了针对这些角度的具体指标，以更好地理解偏好数据集。

创新点：

提出了一种新的数据为中心的方法来比较和理解偏好数据集。
引入了有效样本大小、噪声不变性和信息内容三个新的度量指标。
通过实验验证了这些度量指标与后续奖励模型性能之间的联系。

算法模型：

研究了四个公开的偏好数据集：Anthropic Helpful-Harmless (HH-RLHF)、Ultrafeedback (ULTRAFEEDBACK)、LMSYS Arena Preferences (LMSYS) 和 PKU-SafeRLHF (SAFERLHF)。
使用了不同大小的预训练模型来训练奖励模型，包括350百万、10亿和70亿参数的模型。
采用了标准的奖励模型训练目标函数，并通过引入标签噪声来研究模型的鲁棒性。

实验效果：

通过实验发现，更大的数据集并不总是比更小但与任务更相关的数据集更好。
所有研究的偏好数据集都显示出极高的噪声不变性，即使在30-40%的标签被翻转时，性能也保持不变。
偏好数据集中响应对的相似性分布差异很大，使用高信息或响应对差异性较大的训练样本的性能提升取决于底层奖励模型。

推荐阅读指数：
★★★★☆

推荐理由：
这篇文章为理解和改进用于人类反馈强化学习的偏好数据集提供了新的视角和工具。

3. Automatic Control With Human-Like Reasoning: Exploring Language Model Embodied Air Traffic Agents

Authors: Justas Andriu\v{s}kevi\v{c}ius, Junzi Sun

具有类人推理能力的自动控制：探索语言模型体现的空中交通代理

摘要：
本文探讨了在空管领域中应用大型语言模型（LLM）作为体现代理的可能性，这些代理能够自动解决空中交通冲突并提供类似人类的决策解释。研究的主要组成部分包括基础的大型语言模型、允许代理与模拟器交互的工具，以及一个新概念——经验库。经验库是一个向量数据库，存储代理从与模拟器和语言模型的交互中学到的综合知识。研究评估了基于语言模型的代理在解决空中交通冲突中的有效性，并详细讨论了采用类人推理能力辅助空中交通管制员的方法的局限性和潜力。

创新点：