今晚直播 | 上海交大刘鹏飞老师团队：大模型安全对齐技术前沿

最新推荐文章于 2025-05-01 23:47:29 发布

PaperWeekly

最新推荐文章于 2025-05-01 23:47:29 发布

阅读量148

点赞数

文章标签：安全人工智能

原文链接：https://mp.weixin.qq.com/s?__biz=MzIwMTc4ODE0Mw==&mid=2247691263&idx=3&sn=b724b0c4eec2859ea688eb85f3b407fa&chksm=9723070e15c0f44bdcbcf808f82922fcb1ac7a5b3d68a573b1b1dce3d8ba11c5a1556c09d187&scene=126&sessionid=0

版权

AI安全说第7期

嘉宾在线解读✔️

在线实时Q&A✔️

直播主题

大模型安全对齐技术前沿

直播嘉宾

刘一秀

上海交通大学硕士生

陈奕融

卡内基梅隆大学本科生

直播时间

2024年11日（周六）

19:30-21:00

观看方式

PaperWeekly视频号

PaperWeekly B站直播间

一键预约直播

▼

报告介绍

大模型对齐与安全评估

近年来，随着人工智能技术的快速发展，大模型对齐问题日益凸显。由于预训练目标函数与人类价值观的潜在偏差，使得大模型的安全性评估与人类价值观的对齐成为亟待解决的重要课题。

本次 talk 将聚焦大模型面临的安全风险，介绍上海交通大学生成式人工智能团队在大模型对齐和安全评估方面的相关研究工作，包括事实性对齐、检索增强对齐等，确保模型输出与真实信息对齐、与法律条文对齐。

接着，介绍安全评估、元评估相关内容。通过对大模型评估的深入研究，可以更好保障模型输出安全，确保大模型遵循人类的价值和意图，为构建可信赖的人工智能系统提供技术支撑。

超级智能的对齐和可扩展监督

随着大模型能力的提升，其潜在风险也相应增加，并逐渐影响各个领域。在某些场景下，人类将无法有效的辨别和防止这些大模型带来的危害，比如大模型的诚实性问题。为实现大模型的可扩展监督，确保其能有效辅助人类并降低风险，成为关键挑战，尤其在迈向超级智能的过程中。

本次 talk 将探讨为安全透明的AI研发和应用的相关问题。首先会介绍超级智能的潜在风险及危害，及介绍超级对齐的相关动机。接着介绍我们近期被NeurIPS录用的大模型诚实性对齐工作，并分享我们接着对于诚实性问题的细致评估研究及发现。

最后，我们将探讨多种超级对齐方法的实现策略及其应用，介绍近期国内外相关安全研究，并展望领域的发展方向。通过深入分析大模型的安全问题，可以提升模型与内容的安全性，并为AI的可持续发展提供有益的建议。

嘉宾介绍

刘一秀

上海交通大学硕士生

刘一秀，上海交通大学生成式人工智能团队硕士生，导师为刘鹏飞教授。研究方向为大语言模型安全对齐，包括偏见歧视、不当言论、违法行为等方面的对齐，已在NeurIPS、EMNLP等顶级国际会议上发表相关研究成果。目前，他的研究兴趣集中于语言模型和多模态模型的安全性，致力于保障大模型的数据安全、内容安全以及评估安全。

陈奕融

卡内基梅隆大学本科生

陈奕融，卡内基梅隆大学本科生，目前为上海交通大学生成式人工智能团队实习生，导师为刘鹏飞教授。研究方向集中在对齐和评估大语言模型，主要包括开发更可信的评估方法，并通过解决幻觉、事实性、和诚实性等问题来提升模型的可靠性，并已在 NeurIPS 等顶级国际会议上发表相关研究成果。目前，她的研究兴趣集中在探讨超级智能的相关安全问题及解决方法，致力于推动超级智能的安全发展。这包括应对潜在的对齐问题及控制风险，从而确保超级智能的可控性和透明性。