今晚直播 | 上海交大刘鹏飞老师团队:大模型安全对齐技术前沿

439ec619c737da723b8dc2a610b8122c.gif

89d48547f4de7a352e6535abed2c53c9.png

 AI安全说 第7期 

嘉宾在线解读✔️

在线实时Q&A✔️

 直播主题 

大模型安全对齐技术前沿

 直播嘉宾 

刘一秀

上海交通大学硕士生

陈奕融

卡内基梅隆大学本科生

 直播时间 

2024年11日(周六)

19:30-21:00

 观看方式 

PaperWeekly视频号

PaperWeekly B站直播间

一键预约直播

50266ea914e0affbd961749aea44a0a9.png

 报告介绍 

01

大模型对齐与安全评估

近年来,随着人工智能技术的快速发展,大模型对齐问题日益凸显。由于预训练目标函数与人类价值观的潜在偏差,使得大模型的安全性评估与人类价值观的对齐成为亟待解决的重要课题。 

本次 talk 将聚焦大模型面临的安全风险,介绍上海交通大学生成式人工智能团队在大模型对齐和安全评估方面的相关研究工作,包括事实性对齐、检索增强对齐等,确保模型输出与真实信息对齐、与法律条文对齐。 

接着,介绍安全评估、元评估相关内容。通过对大模型评估的深入研究,可以更好保障模型输出安全,确保大模型遵循人类的价值和意图,为构建可信赖的人工智能系统提供技术支撑。

02

超级智能的对齐和可扩展监督

随着大模型能力的提升,其潜在风险也相应增加,并逐渐影响各个领域。在某些场景下,人类将无法有效的辨别和防止这些大模型带来的危害,比如大模型的诚实性问题。为实现大模型的可扩展监督,确保其能有效辅助人类并降低风险,成为关键挑战,尤其在迈向超级智能的过程中。 

本次 talk 将探讨为安全透明的AI研发和应用的相关问题。首先会介绍超级智能的潜在风险及危害,及介绍超级对齐的相关动机。接着介绍我们近期被NeurIPS录用的大模型诚实性对齐工作,并分享我们接着对于诚实性问题的细致评估研究及发现。 

最后,我们将探讨多种超级对齐方法的实现策略及其应用,介绍近期国内外相关安全研究,并展望领域的发展方向。通过深入分析大模型的安全问题,可以提升模型与内容的安全性,并为AI的可持续发展提供有益的建议。

f7e6b42b1a00a23232c47292985f3a2a.png 嘉宾介绍 

bd11a6dc2c2c782820d1b522cd7dfeea.jpeg

刘一秀

上海交通大学硕士生

刘一秀,上海交通大学生成式人工智能团队硕士生,导师为刘鹏飞教授。研究方向为大语言模型安全对齐,包括偏见歧视、不当言论、违法行为等方面的对齐,已在NeurIPS、EMNLP等顶级国际会议上发表相关研究成果。目前,他的研究兴趣集中于语言模型和多模态模型的安全性,致力于保障大模型的数据安全、内容安全以及评估安全。

de1bbdd0c11f1dc85f1f6445bc843da4.jpeg

陈奕融

卡内基梅隆大学本科生

陈奕融,卡内基梅隆大学本科生,目前为上海交通大学生成式人工智能团队实习生,导师为刘鹏飞教授。研究方向集中在对齐和评估大语言模型,主要包括开发更可信的评估方法,并通过解决幻觉、事实性、和诚实性等问题来提升模型的可靠性,并已在 NeurIPS 等顶级国际会议上发表相关研究成果。目前,她的研究兴趣集中在探讨超级智能的相关安全问题及解决方法,致力于推动超级智能的安全发展。这包括应对潜在的对齐问题及控制风险,从而确保超级智能的可控性和透明性。

eb419ebb63738ff2957d9b1e505244f0.png

f002fc2399887f77e7c7191f228948b5.jpeg

技术交流群

扫码备注「LLM安全」

立刻加入技术交流群

一键预约直播

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

·

0bf24a58b027dbefeefac5ca34014d29.jpeg

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值