如何确保大模型追求“正确”的目标?丨AI安全与对齐圆桌回顾

导读

在智源大会「AI 安全与对齐」论坛上,与会嘉宾针对目前人们关心的 AI 安全控制标准、多智能体强化学习环境下的安全、开源对 AI 安全的影响、对智能涌现安全的思考等问题展开了讨论。

能力越大,责任越大。

嘉宾名单

谢旻希丨主持人,安远AI创始人

杨耀东丨北京大学人工智能研究院助理教授

付杰丨智源研究院硏宄员

David Krueger丨剑桥大学助理教授

黄文灏丨智源创新应用实验室负责人

李博丨UIUC助理教授

Q1 MC:人工智能的安全性和一致性方面有哪些重要但被忽视的问题?(特别但不限于大型语言模型)

ff3efe04845ed031f2515b556e95836b.jpeg

>>李博:

从人工智能对齐的角度来看,有几件事很重要——拥有领域知识、给予模型推理能力。同时,模型的鲁棒性、隐私性和泛化的一致性认证都很重要。保证模型在某些类型上的下限,对一些安全关键场景非常重要。

>>David Krueger:

几年前,我认为可解释性是重要但被忽视的问题。但目前许多 AI 安全研究社区中的学者已经进入了这一领域。寻找机器学习可解释性就像寻找科学理论,理解事物是如何运作的,特别是学习过程。机器学习理论研究是非常具有挑战性的,学习方法往往可以帮助我们建立直觉。我认为我们应该考虑制定标准。目前有很多关于 AI 监管、审计和评估的讨论,但我们还没有明确的意识到如何才能判断系统是否安全,这与系统可信度问题有关。

>>黄文灏:

对我来说数据和算法十分重要。对于数据,我们想在预训练阶段和 SFT 阶段加入对齐和安全控制,我们还需要做大量的数据控制和数据规划工作,以使其更安全。对于算法,对于追求 AGI 而言,Transformer 可能并不是最好的架构。所以我们需要在算法和对齐上有所突破。

>>付杰:

现在,我专注于数据集部分。三年前,我与合作者发布了一个名为 Would You Rather 的数据集,用于测试语言模型是否与人类社会的群体偏好保持一致。例如,给定来自不同国家的数据,我们假设语言模型可以像人类一样有类似的选择,这是一个社会层面的图灵测试。我们希望,这个数据集或基准可以为测试语言模型设定一个基线,以遵循人类的社会偏好和价值观。 

>>杨耀东:

安全对所有人

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值