导读
在智源大会「AI 安全与对齐」论坛上,与会嘉宾针对目前人们关心的 AI 安全控制标准、多智能体强化学习环境下的安全、开源对 AI 安全的影响、对智能涌现安全的思考等问题展开了讨论。
能力越大,责任越大。
嘉宾名单
谢旻希丨主持人,安远AI创始人
杨耀东丨北京大学人工智能研究院助理教授
付杰丨智源研究院硏宄员
David Krueger丨剑桥大学助理教授
黄文灏丨智源创新应用实验室负责人
李博丨UIUC助理教授
Q1 MC:人工智能的安全性和一致性方面有哪些重要但被忽视的问题?(特别但不限于大型语言模型)
>>李博:
从人工智能对齐的角度来看,有几件事很重要——拥有领域知识、给予模型推理能力。同时,模型的鲁棒性、隐私性和泛化的一致性认证都很重要。保证模型在某些类型上的下限,对一些安全关键场景非常重要。
>>David Krueger:
几年前,我认为可解释性是重要但被忽视的问题。但目前许多 AI 安全研究社区中的学者已经进入了这一领域。寻找机器学习可解释性就像寻找科学理论,理解事物是如何运作的,特别是学习过程。机器学习理论研究是非常具有挑战性的,学习方法往往可以帮助我们建立直觉。我认为我们应该考虑制定标准。目前有很多关于 AI 监管、审计和评估的讨论,但我们还没有明确的意识到如何才能判断系统是否安全,这与系统可信度问题有关。
>>黄文灏:
对我来说数据和算法十分重要。对于数据,我们想在预训练阶段和 SFT 阶段加入对齐和安全控制,我们还需要做大量的数据控制和数据规划工作,以使其更安全。对于算法,对于追求 AGI 而言,Transformer 可能并不是最好的架构。所以我们需要在算法和对齐上有所突破。
>>付杰:
现在,我专注于数据集部分。三年前,我与合作者发布了一个名为 Would You Rather 的数据集,用于测试语言模型是否与人类社会的群体偏好保持一致。例如,给定来自不同国家的数据,我们假设语言模型可以像人类一样有类似的选择,这是一个社会层面的图灵测试。我们希望,这个数据集或基准可以为测试语言模型设定一个基线,以遵循人类的社会偏好和价值观。
>>杨耀东:
安全对所有人