“大模型安全与对齐”论坛详情公布｜CIPS-LMG2024

最新推荐文章于 2025-02-26 13:31:08 发布

zenRRan

最新推荐文章于 2025-02-26 13:31:08 发布

阅读量392

点赞数

文章标签：人工智能

原文链接：https://mp.weixin.qq.com/s?__biz=MzI3ODgwODA2MA==&mid=2247533786&idx=3&sn=d7af1afe2b73cf4e10ac4cf3c7fb5b23&chksm=ea87c580f493913c5ca8bb89ccc16ac0584b10b8696b08aa0fc097786a9c8ed72c40cf72a062&scene=126&sessionid=0

版权

中国中文信息学会2024学术年会暨第三届全国大模型智能生成大会（CIPS-LMG 2024）将于2024年11月28日-12月1日于浙江嘉兴召开。前沿技术论坛将于2024年11月30日召开。本次大会的多个论坛覆盖了大模型基础理论、深度推理、大模型安全、多模态大模型、科学智能、具身智能、智能体、社会智能等时下最受关注的技术议题，多个领域权威专家共聚一堂交流研讨。本公众号将陆续发布各论坛的学术报告详情，敬请关注！

大会分论坛详情

11月30日周六

9:00-12:00

分论坛1：大模型的理论基础

（论坛主席：王立威、贺笛）

分论坛2：大模型安全与对齐

（论坛主席：杨耀东）

分论坛3：科学智能

（论坛主席：孙浩）

分论坛4：大模型搜索与推荐

（论坛主席：窦志成）

分论坛5：大模型与生成的评估

（论坛主席：万小军、杨熙）

分论坛6：大模型智能体

（论坛主席：魏忠钰）

分论坛7：具身智能与机器人

（论坛主席：付彦伟）

14:00-18:00

分论坛8：AI赋能下的人文社会科学研究

（论坛主席：张梦翰）

分论坛9：多模态大模型

（论坛主席：常晓军）

分论坛10：大模型基础架构优化与应用

（论坛主席：徐童、王喆锋）

分论坛11：大模型深度推理

（论坛主席：刘鹏飞）

分论坛12：人工智能与脑科学

（论坛主席：张治国）

分论坛13：语音大模型

（论坛主席：俞凯）

分论坛14：大模型与社会智能

（论坛主席：吕琳媛）

“大模型安全与对齐”论坛日程

时段	报告人	单位	报告题目
9:00-9:25	虎嵩林	中科院信工所	大模型安全：现状与挑战
9:25-9:50	张倬胜	上海交通大学	多模态智能体安全与对齐
9:50-10:15	熊德意	天津大学	多语言大模型与价值对齐
10:15-10:40	王奕森	北京大学	测试时间对齐
10:40-10:50	茶歇
10:50-11:15	王岚君	天津大学	跨模态生成模型鲁棒性缺陷模式挖掘
11:15-11:35	李栋	华为诺亚方舟实验室	面向大语言模型的强化学习优化研究与实践
11:35-11:55	阎栋	百川智能	Learn to reason : from alignment to exploration
11:55-12:15	许皓天	小红书	Reasoning is all you need

论坛主席

杨耀东

杨耀东（北京大学）

个人简介：杨耀东博士，北京大学人工智能研究院研究员（博雅学者）、人工智能安全与治理中心执行主任。人社部海外高层次人才、国家级高层次青年人才项目获得者。研究方向为智能体安全交互与价值对齐，科研领域涵盖强化学习、AI对齐、多智能体学习、具身智能。发表AI领域顶会顶刊论文一百余篇，谷歌引用六千余次，曾获ICCV’23最佳论文奖入围、CoRL’20最佳系统论文奖、AAMAS’21最具前瞻性论文奖、WAIC’22云帆奖璀璨明星、ACM SIGAI China新星奖。带领国内团队研发多智能体强化学习算法首登Nature Machine Intelligence，主导Baichuan2、鹏城脑海33B、香港HKGAI大模型安全对齐工作。

论坛嘉宾：虎嵩林

虎嵩林（中科院信工所）

题目：大模型安全：现状与挑战

摘要：生成式人工智能大模型正在成为驱动新质生产力发展的新动能、人类探索未知的新工具，在显著提升AI模型通用理解和生成能力，赋能新时代发展的同时，也带来了前所未有的安全风险。报告将首先简介大模型的能力及其安全风险；然后概述其风险成因、研究现状以及我们所面临的严峻挑战；介绍团队开发的Galexy(星河)大模型安全平台，以及其应用。并在报告最后分享对于大模型安全领域未来的反思和展望。

讲者介绍：中国科学院信息工程研究所研究员，中国科学院特聘（核心）研究员、中国科学院大学岗位教授。主要研究方向为内容安全、大数据智能处理、大模型安全等，在包括ACL、AAAI、EMNLP、SIGMOD、VLDB、IJCAI、DAC等会议和国内外期刊上发表学术论文百余篇；应用上聚焦知识增强的内容安全，承建多个国家级重大工程。获中国专利奖、北京市科技进步奖等多项科技奖励。

论坛嘉宾: 张倬胜

张倬胜（上海交通大学）

题目：多模态智能体安全与对齐

摘要：随着大模型的飞速发展，构建具备环境交互、规划决策和工具操控能力的AI智能体逐渐成为现实，并在系统操控、软件开发、科学探索等方面展现出应用前景。然而，智能体在为现实生活提供便利的同时，也面临着多样化的安全挑战。本报告将介绍大模型智能体的发展现状，并以图形用户界面（GUI）智能体为例，展示“用户-模型-环境”三方交互中的安全风险，尤其是来自环境侧的劫持攻击。最后，探讨智能体安全对齐策略。

讲者介绍：张倬胜，上海交通大学长聘教轨助理教授、博士生导师。研究方向为自然语言处理、大模型推理与安全，代表成果包括Auto-CoT自动思维链推理、Auto-GUI多模态智能体、R-Judge智能体安全测评。在TPAMI, ICLR, ICML, ACL, AAAI等顶级期刊和会议上发表论文70余篇，Google Scholar被引超过5000次，开源成果获得超过1.5万GitHub星标。主持国家自然科学基金、计算机学会、中文信息学会多个基金项目。入选中国中文信息学会优博、ACM SIGAI优博、全球AI华人百强学术新星、世界人工智能大会云帆奖璀璨明星、青年优秀论文奖。

论坛嘉宾：熊德意

熊德意（天津大学）

题目：多语言大模型与价值对齐

摘要：全球现存语言数千种，决定了大模型的多语言化发展是必然趋势。但是，语言的差异性、数据分布的不均衡性、文化价值观的多元性，对多语言大模型构建及价值对齐带来了巨大挑战。针对以上问题，本报告将探讨多语言大模型的数据采集、架构设计与预训练后训练技术，分析多语言大模型内部工作机理，探索多语言大模型多元价值观对齐方法，并对未来发展方向进行展望。

讲者简介：熊德意，天津大学智能与计算学部教授、博士生导师，自然语言处理实验室负责人，天津市“一带一路”联合实验室语言智能与技术中外联合研究中心主任。主要研究方向为自然语言处理，特别专注于大语言模型、机器翻译、AI对齐、AI for Science等方向的研究。在IEEE TPAMI、AI、AAAI、ACL等国际著名期刊和会议上发表论文180余篇，出版中英文专著各一部，受理/授权发明专利30余项，参与编制大模型相关标准多项。建立了省部级科技创新合作平台，承担国家级、省部级及社会委托科研项目20余项。获得北京市科学技术奖二等奖、COLING 2024杰出论文奖等奖项。领导研制了全球首个甲基化DNA预训练模型、支持43种自然语言和16种编程语言的伏羲传语多语言大模型、大模型通用基准测试平台OpenEval等。担任IALP 2012&2021程序委员会共同主席，CWMT 2017程序委员会共同主席，NeurIPS、ACL、EMNLP、NAACL、COLING、AACL等多个知名国际会议的（高级）领域主席、赞助主席、演示主席等，TACL及CL执行主编，ACM TALLIP副主编，Data in Brief栏目主编等。

论坛嘉宾：王奕森

王奕森（北京大学）

题目：测试时间对齐

摘要：大型语言模型在某些情况下具备纯粹通过自我校正提升能力的潜力，即通过自我审查来修正先前的回答。然而，目前尚不清楚这一能力如何产生。本次报告中从上下文学习的视角理论分析自我校正，表明在LLMs能给予相对准确的自我评估作为奖励时，它们能够在上下文中进行对齐。值得注意的是，我们的理论构建超越了关于线性Transformer的简化理论，揭示了现实Transformer设计中多头注意力、MLP模块在自我校正中的关键作用。

讲者简介：王奕森，北京大学助理教授，博士生导师。主要研究方向为机器学习理论和算法，目前重点关注大模型的理论、安全等。已发表机器学习三大顶会ICML/NeurIPS/ICLR文章50余篇，多篇被选为Oral或Spotlight，获ECML 2021最佳机器学习论文奖、ICML 2024 Workshop最佳论文奖、ICML 2021 Workshop最佳论文银奖、CVPR 2021竞赛第一等，研究成果被麻省理工科技评论（MIT Technology Review）和中央电视台（CCTV）专题报道。主持基金委“下一代人工智能”重大研究计划项目、科技创新2030“新一代人工智能”重大项目课题。

论坛嘉宾：王岚君

王岚君（天津大学）

题目：跨模态生成模型鲁棒性缺陷模式挖掘

摘要：随着DALLE-2、Midjourney、Sable Diffusion等成熟的商业模型不断问世，跨模态视觉内容生成技术为内容创作提供了新机遇，但也带来了生成内容安全的挑战。本报告从系统性的回顾针对跨模态图像生成模型的对抗攻击方法出发，揭示跨模态图像生成模型鲁棒性缺陷的三种模式，展示缺陷模式带来的内容生成风险，以及在相应风险防范措施上的思考。

讲者介绍：王岚君，天津大学新媒体与传播学院研究员，博士生导师，研究方向为可信人工智能，主要关注智能传播领域相关应用场景。加入天津大学前，她曾任IBM中国研究院高级主任研究员、华为云技术专家。她曾作为华为云模型可信负责人，参与建立首个人工智能云服务安全标准，该成果载入2021年华为公司企业年报。此外，她已发表高水平论文50余篇，拥有授权专利30余项。

论坛嘉宾：李栋

李栋（华为诺亚方舟实验室）

题目：面向大语言模型的强化学习优化研究与实践

摘要：近年来，随着OpenAI ChatGPT的发布，大语言模型受到了AI领域广泛关注，近期的O1又将大语言模型的推理能力迈上了新的高度，在大语言模型的优化过程中，强化学习发挥关键作用。在本次报告中，将简要介绍强化学习在大语言模型对齐中的发展，在此基础上，探讨多种强化学习对齐方法的影响与选择。最后，介绍华为诺亚方舟实验室在大语言模型RLHF方面相关的研究与业务实践。

讲者简介：李栋，博士毕业于中国科学院自动化研究所，毕业后加入华为诺亚方舟实验室，主要从事强化学习研究及其在语言大模型、自动驾驶等方面的落地应用工作。当前主要工作涉及语言大模型RLHF对齐优化、端侧设备App Agent操控等方面。率领团队主导开发的盘古大模型RLHF在终端、华为云、ICT等业务获得广泛应用。在NeurIPS、ICML、ICLR等国际会议上发表论文二十余篇。

论坛嘉宾：阎栋

阎栋（百川智能）

题目：Learn to reason : from alignment to exploration.

摘要：OpenAI o1的发布给大语言模型的发展带来的新的方向。在本次讲座中，我们首先回顾Alignment技术的最后一步，Reinforcement Learning with Human Feedback在过去两年中的发展。在此基础上探讨，传统强化社区发展的技术（比如MCTS）如何应对推理空间组合爆炸所带来的挑战。最后，介绍Baichuan智能从减少安全风险和疑难杂症解析两个维度将推理能力落地医疗场景的业务实践。

讲者简介：博士毕业于清华大学计算机系。历任Intel中国研究员、清华大学计算机系博士后、启元实验室机器智能基础前沿决策方向负责人。2023年加入百川智能，现任百川智能研究负责人。主要从事决策算法和系统方面的研究。在算法方面，提出了通过奖励分配机制连接无模型和基于模型的强化学习算法的求解框架。在ICLR、ICML、IJCAI、AAAI、JMLR、Pattern Recognition等会议/期刊发表论文十余篇。带领团队基于RLHF增强的大语言模型Baichuan3，在4月份的Superclue评测中荣获国内第一。

论坛嘉宾：许皓天

许皓天（小红书）

题目：Reasoning is all you need.

摘要：随着openai发布o1，test-time-scaling给社区带来了新的技术探索方向。我们将从pretraining、alignment、inference-time-scaling等几个角度探讨小红书在这些方面上的探索成果和思考。

讲者简介：硕士毕业于清华大学电子系。毕业后，主要在阿里、抖音、小红书等公司工作。工作内容涉及内容安全、风险舆情、大模型内生安全以及模型推理能力增强等方向。在ACL/EACL、ICLR、TASLP、ICASSP等会议/期刊发表多篇论文。主导研发的基于能量模型的MCTS树搜索，在多个数学benchmark上取得显著提升。