大模型对齐论文专题分享@ICLR2025

最新推荐文章于 2025-05-15 15:12:18 发布

zenRRan

最新推荐文章于 2025-05-15 15:12:18 发布

阅读量89

点赞数

原文链接：https://mp.weixin.qq.com/s?__biz=MzI3ODgwODA2MA==&mid=2247536614&idx=3&sn=33be54ed252f93935dba627284508539&chksm=eac0f8bce70cabf162c9ecf750a446f84caba9bb9b8ac20177ad2f4f797a10defd45a72c1ef1&scene=126&sessionid=0

版权

主题

大模型对齐论文分享@ICLR2025

时间

北京时间 2025.3.22 10:30 am

论文列表

[1] Jailbreaking as a Reward Misspecification Problem - 谢知晖港大
[2] On a Connection Between Imitation Learning and RLHF - 袁一歌中科院计算所
[3] Steering Large Language Models between Code Execution and Textual Reasoning - 陈勇超 MIT&哈佛
[4] CodeSteer: Symbolic-Augmented Language Models via Code/Text Guidance - 陈勇超 MIT&哈佛
[5] Preference Optimization for Reasoning with Pseudo Feedback - 焦方锴 NTU

嘉宾介绍

谢知晖，香港大学计算机科学系一年级博士研究生，研究方向涵盖大语言模型对齐、强化学习、多模态模型等领域，在ICLR、NeurIPS、ICML等会议发表多篇论文。
个人主页：https://zhxie.site/
论文：Jailbreaking as a Reward Misspecification Problem
论文简介：随着大语言模型的广泛应用，其安全性和可靠性问题日益突出，特别是"越狱攻击"（jailbreaking）现象引起了研究界的广泛关注。我们的研究首次从"奖励错误规约"（Reward Misspecification）的角度解释了为什么大语言模型会存在越狱漏洞。我们提出了ReGap度量方法来量化奖励错配程度，并基于此构建了ReMiss自动化红队系统，能够高效生成对抗性提示，探索模型的安全漏洞。ReMiss在AdvBench基准测试上显著优于现有方法，不仅攻击成功率高，还能保持生成提示的可读性。更重要的是，我们的方法能自动发现多样化的攻击模式（如翻译、续写、上下文示例等），并且对包括GPT-4o在内的闭源模型展现出极强的攻击迁移能力。

袁一歌，中国科学院计算技术研究所博士生，师从程学旗研究员，研究方向主要为大模型的推理与对齐、机器学习的泛化性与鲁棒性，于ICLR、CVPR、NeurIPS 等会议发表相关论文。
个人主页：https://yuanyige.github.io
论文：On a Connection Between Imitation Learning and RLHF
论文简介：本工作从模仿学习 (IL) 的视角研究了大语言模型 (LLM) 与偏好数据的对齐问题，建立了基于人类反馈的强化学习 (RLHF) 与模仿学习之间的紧密理论联系，揭示了 RLHF 的本质: 它并非传统意义上的强化学习，而是在偏好数据分布上隐式执行模仿学习。基于这一联系，我们提出了 DIL (Direct Imitation Learning)，一个直接优化模仿学习目标的理论框架。DIL 从模仿学习的角度统一了对齐问题，将现有 DPO 等主流对齐算法视作特例，并自然引出了新的变体。通过桥接模仿学习和 RLHF，DIL 为 RLHF 对齐提供了新的见解。

陈勇超，哈佛大学和MIT四年级博士生，研究方向：机器人，大模型规划，智能科学。
个人主页：https://yongchao98.github.io/YongchaoChen/
论文：
(1) Steering Large Language Models between Code Execution and Textual Reasoning
(2) CodeSteer: Symbolic-Augmented Language Models via Code/Text Guidance
论文简介：大模型的 reasoning & planning 现在的趋势基本都是CoT (Chain of Thought)，比如 OpenAI o1 和 DeepSeek R1 都依赖纯文字推理来搜索答案。但很多 reasoning & planning 任务本质上需要符号计算，仅靠文字推理不仅低效，而且难以扩展。例如，让 R1 计算 24 点，它反复 textual reasoning 但仍然出错。更极端的例子是，现在 o1 还能走 5×5 迷宫，但换成 100×100 之后就完全失效。而代码 (coding) 其实是符号计算的天然载体，几乎所有 solver/planner/controller 都是基于代码实现，具备更好的完备性。像经典的 "9.11 vs 9.9"、"strawberry" 这类问题，在 prompt 里加上代码逻辑，GPT-4o 立刻能正确解答。让LLM调用人为设定的外部工具(solver)也能有效利用符号计算，但是没有LLM自主生成代码那么有泛化到不同任务的能力。
挑战在于：如何让 LLM 知道什么时候应该生成代码，什么时候用文字推理？即使 LLM 选择了代码，生成出的代码也可能只是伪代码或低效实现，并未真正结合符号计算。我们采用多轮 CodeSteer 引导，每一轮都会根据问题和已有尝试来优化下一步决策。

焦方锴，南洋理工大学三年级博士生，导师为 Prof Shafiq Joty, Prof Nancy F. Chen 和孙爱欣教授。主要研究方向为自然语言推理和大语言模型。
个人主页：jiaofangkai.com
论文：Preference Optimization for Reasoning with Pseudo Feedback
论文简介：随着reasoning相关的技术发展，越来越多的工作意识到outcome supervision和RL/DPO在reasoning上重要性。R1的发布则进一步推动了scaling RL的边界。与此同时，一个很自然的问题是：我们显然无限制的标注数据，即使无需考虑成本，随着模型越来越强，标注问题本身的难度已经逐渐超过了绝大多数标注人员的水平。因此，在这篇论文中我们试图探索完全由模型自己进行伪监督的可行性。在数学上，我们直接使用self-consistency来获取pseudo label构造监督信号；在竞赛编程上，我们首先使用普通的LLM合成test case input，然后让模型自行生成解题程序，并在合成的input上执行得到output，最后对output做投票得到pseudo input-output pairs用于构造监督信号。在多轮DPO的实验上，结果证明了，使用模型自身合成的弱监督信号也能够带来持续的提升。我们也进行了进一步的消融实验，发现在代码问题上，增加test case的规模可以有效地降低false positive sample的比例，从而提高监督信号的稳定性。

主持人介绍

薛博阳，香港中文大学三年级博士生，导师为黄锦辉教授，研究方向包括可信大模型，对话系统，语音识别等，在 ACL, EMNLP , ICASSP, TASLP 等会议期刊均发表过论文。
个人主页：https://amourwaltz.github.io/

入群

欢迎加入NICE每周分享交流群，可与NICEer唠嗑，以及第一时间收到后续NICE分享报告的通知。加群通过小助手认证，群内无广告。

备注【昵称-单位-方向-NICE入群】

NICE介绍

NICE(NLP Academic Exchange Platform)成立于2023.11.26，由国内外高校一线青年教师和学生共同组织。每周进行学术分享，形式包括圆桌会议、主题分享、单篇论文深度分享等，内容覆盖论文分享、科研小白入门、PhD择业等所有学术领域。至今已举办近70场分享、嘉宾100+人、全网拥有粉丝量10+万，b站和视频号一共大约20万播放量。详情见：
NICE主页
https://nice-nlp.github.io
NICE海外
https://nice-intl.github.io
b站
https://space.bilibili.com/507524288
Youtube
https://www.youtube.com/@NLPAcademicExchangePlatform