在上周六的“全球智慧治理与人类发展新形态”专题论坛上,由北京智源人工智能研究院院长王仲远主持的“人工智能安全与规范”圆桌热烈展开,清华大学苏世民书院院长、清华大学人工智能国际治理研究院院长薛澜,中国科学院信息工程研究所副所长王伟平,清华大学计算机系副研究员苏航,以及微软亚洲研究院高级研究员王晋东围绕“AI安全和治理”的议题从AI安全概念与定义,数据安全、鲁棒性等核心技术,制度和法律监管,国际合作等多个角度,提出了多项推动人工智能治理的建议。以下为观点总结(编者进行了不改变原意的编辑)。
王仲远:如何定义「人工智能安全」,其研究的议题和概念应该是怎样的?
薛澜:在探讨人工智能(AI)安全时,必须首先考虑AI的潜在风险。对人类社会而言,AI系统失控是最大的潜在风险,尤其是当AI的智能水平达到甚至超过人类专家的程度时。在这种情况下,AI可能会采取伪装行为,直到它确信能够不受控制,这时传统的断电措施可能已无法阻止其行为,AI可能会寻求摆脱人类的控制。
其次,另一个重大风险是:AI技术被用于战争或制造大规模杀伤性武器。联合国一直在讨论如何防止AI在此方面的应用。此外,与主权国家相比,极端组织或个人可能对恶用AI受到的约束更小,因此可能带来更大的风险。
第三,AI对社会的影响,如信息茧房的形成和对就业的冲击,也是需要关注的风险。我们需要通过更好的治理机制和技术手段来应对这些风险。
王仲远:如何看待AI安全和数据安全之间的关系?
王伟平:人工智能(AI)安全涉及多种风险。随着大模型的发展,数据安全问题愈发显著,包括个人隐私泄露、数据泄露风险,以及训练过程中的数据污染问题。
首先,深度学习、统计学模型可能记录个人隐私信息,存在泄露风险。第二,AI系统作为信息服务系统,需要处理数据和提供服务,面临外部攻击和内部威胁,可能导致公司机密数据泄露。第三,人工智能系统训练过程中存在数据污染等风险。有时,我们只需要加入少量的「污染性」训练样本,就可以使模型输出错误的结果。我们需要规避在模型的训练、部署过程中可能存在的「数据投毒」、「模型窃取」等风险。
一直以来,数据安全和人工智能是一个交叉的热点研究方向,有很多代表性工艺。例如:(1)查询隐私。在数据集上加一些噪声,在保证数据训练的结果是可用的前提下,防止个人信息被反推回来。(2)联邦学习。数据二十条出来以后,我们把数据作为核心的资产。联邦学习是一个分布式的机器学习的训练框架,通过局部目的模型训练,不交换原始数据,只交换模型参数或梯度,最终在一个集中的模型上进行最后的优化。
(3)同态加密。在很多情况下,我们希望数据服务者、处理者和应用者,三者之间是互相不了解。如果在密态数据上计算结果,跟在原始数据计算结果,保持结果一致,这样我们可以放心把数据通过同态加密放在不信任的环境下进行计算。同态加密计算的效率问题是主要的瓶颈。
王仲远:如果要解决一个问题需要完整的体系框架。比如自动驾驶,已经有L0到L5的完整体系。Anthropic曾提出AI安全的四个层级,他们认为现有大模型处于第二层级,即显示出早期危险性的系统。如何评估大模型的安全风险等级,国内有没有关于AI安全的框架体系的研究?
苏航:在人工智能(AI)安全领域,尽管国内外都在开展相关工作,但目前尚未形成一个完善的公开公认的框架。AI安全涉及传统信息安全问题,如隐私泄露和对抗攻防,同时也带来了新的问题,尤其是在大模型的应用上。大模型与人类相比存在显著差异,它们目前缺乏自身的欲望,行动上还受人类控制。然而,随着技术的发展,大模型未来可能通过与物理世界的交互或与其他智能体的反馈来进化,从而可能不再完全依赖于人类的监督,诞生出「超级智能」。特别是OpenAI 的 o1 模型发布后,我们认为未来的模型可能具有这方面的风险。
这种进化可能带来风险,尤其是当大模型技术集中在少数公司手中时,缺乏有效的制衡机制。例如,如果一个掌握被广泛使用的大模型技术的公司滥用其技术,或者一个强大的机构利用大模型进行恶意行为,现有的法律制度可能难以应对。目前,AI领域缺乏类似于人类社会的三权分立等制衡机制,这在技术和法律层面都提出了挑战。因此,需要跨学科合作,共同探讨如何确保大模型的安全和可控性。
王仲远:如何看待模型的鲁棒性、与人类价值观的对齐、可解释性等方面的研究进展和发展趋势?
王晋东:从定义的角度来说,AI safety 是指系统本身内在的缺陷,而 AI security 偏向于外部的攻击。ChatGPT 发布一个多月以后,我们团队就开始做大模型。大模型研究可以分为三个方面:(1)怎么做更好的模型(2)怎么更好地理解模型。模型什么时候做得好,什么时候做得不好,这和安全息息相关(3)模型可以做什么。
当前,AI安全、对齐和解释方面尚未出现令人满意的解决方案。由于大型模型及其训练数据通常不公开,研究者无法深入了解模型内部的潜在问题。尽管通过提示词攻击等手段可以进行一些经验性分析,但这并未触及问题的核心。
在AI安全和伦理方面,存在一个例子:直接生成具有种族歧视色彩的图片是被模型拒绝的,因为这违反了伦理准则。然而,通过分步引导,即使每一步都看似符合道德伦理,最终却能生成同样违反伦理的图片。这一现象涉及到模型的可解释性问题,即为何直接生成不被允许,而分步引导却可以。此外,模型的对齐问题也凸显出来,即模型最终生成了与设计初衷相悖的内容。
模型的设计初衷应包含防止此类问题的机制,但目前存在许多未解决的问题。例如,即使是简单的深度网络也难以完全解释,更不用说更复杂的模型。ChatGPT等模型可能包含多个子模型,但具体细节不为人知,这给研究带来了挑战。因此,除了预训练之外,后训练、对齐和解释性等方面的问题才是关键。
王仲远:说起AI安全和治理,涉及以技术为主,还是人工立法为主。欧洲的人工智能法案已于8月实施,美国加州的SB 1047却被州长否决。薛教授此前也提出过敏捷治理的概念,您认为我国在AI治理上应该怎么做?
薛澜:技术与制度的深度结合是未来发展的关键。技术进步迅速,而制度演变相对缓慢,目前并没有真正实质有效的办法去约束领先公司的技术发展。例如,欧洲人工智能法经过多年的论证才得到通过,而加州的相关法律最近被否定,都说明了治理体系变革的难度。中国在治理上思路上采取了分层演进的策略,包括明确顶层规划与规则(如 2017 年发布的新一代人工智能发展规划以及2019年发布的新一代人工智能治理准则)、中层分布式治理措施、底层的相关基础性法律(如个人信息法),以适应技术发展并解决相关问题。
全球范围内,各国正在探索更有效的AI治理方式,安全性问题也是AI治理中需要重点关注的议题。例如,目前欧美不少国家成立了国家人工智能安全研究所,希望通过国家安全研究所形成一个全球网络,来推进AI治理的研究和措施落地。然而,这一过程受到地缘政治等因素的影响,要平衡人工智能的竞争和合作,增加了治理的复杂性。
王仲远:各国之间存在人工智能技术的竞争,在AI安全等问题上也需要国际间的合作。中科院在国际学术交流方面有何经验?
王伟平:技术无国界,AI安全是全球共同关注的问题。我院团队于10月份赴牛津大学进行了AI安全技术交流。在网络安全领域,需要建立一个全球的协同机制,对网络安全事件进行应急响应,并共享情报,这是处理网络安全事件的有效手段。未来,人工智能安全领域需加强信息共享和技术交流,包括对人工智能技术本身的交流。从密码设计的角度来看,公开算法能增强安全性,因其能经过多年迭代和全球分析,通过全球相关人员的分析和合作形成强安全标准。闭源系统因机制不透明易存在漏洞和后门,相对开放系统安全性较低。技术的开放性有助于更多人进行安全性分析,国际交流合作对于共享安全技术和策略至关重要,是确保AI安全的必由之路。
王仲远:究竟开源的AI系统更安全还是闭源更安全?
苏航:客观来讲,开源和闭源还是有一定的差距。目前的人工智能研究对于资源密度的要求相当高。和上一波传统深度学习的人工智能研究浪潮不同。现在参与人工智能研究的门槛更高。OpenAI等团队的资本密集、人才密集,数据密集。整体来讲,需要消耗的整体资源不只量大,密度也大。在这样的情况下,开源短时间内和闭源相比有一定的技术差距。
对照之前的信息系统来看。从信息安全角度来说,开源的Linux系统的安全性要比闭源系统的安全性高。如何开源先进的大模型需要要深思熟虑,要避免它被滥用。从法律和社会的角度来说,我们缺乏监管闭源模型滥用的手段。另外一方面,我们也缺乏监管它的动机。而对开源模型和数据的监管则更加复杂。
王晋东:这个问题很复杂。坦白讲,开源更安全。出于经济层面的考虑,大多数研究者无力支付闭源模型的API调用费用,只能针对 LLaMA 等开源模型展开研究。
一方面,开源模型如LLaMA因其开放性允许全球用户参与改进,类似于Linux,这有助于发现并修复漏洞。然而,LLaMA在性能上通常无法与闭源模型如ChatGPT竞争,后者作为一个未公开的系统,其内部工作机制和数据集对外界来说是黑盒。即便开源模型在安全性方面有所建树,对于实际应用的闭源系统中的安全性提升有限,因为它们无法解决闭源模型的不透明性问题。此外,依赖少数大公司如OpenAI的闭源模型可能导致对技术的过度集中,这不仅是技术问题,还涉及系统设计和法律层面的讨论。
王仲远:开展大模型研究竞争需要消耗大量的能源。是否能够借鉴核聚变研究的ITER模式,邀请有能力、有意愿的人一起加入到研究社区中。各方遵守规则,共用资源,合理应用开发好的模型,并接受监管?
苏航:AI的监管和核研究有一些类似的地方。核的监管是监管核原料,AI可以监管数据,有一些可以类比的地方。但是核聚变仍处于研发阶段,没有产生巨大的商业利益。而AI技术如今可以很快产生经济效益,设计到利益的分配。智源或政府机构如果能共同做这件事会很好。我认为联合中国、欧洲和美国一起研发大模型的难度非常大。
王仲远:请各位专家总结一下对这波人工智能发展的浪潮、AI安全和AI治理持乐观态度还是谨慎态度?如何提升全社会的AI安全和治理的识?
薛澜:总体来讲,我是谨慎地乐观。现在,AI技术界也在积极考虑AI安全问题,这让人高兴。人工智能的发展是“创新”和“治理”双轮驱动。现在我们正步入新的智能时代,是自然智能和人工智能合作的时代,只要我们对AI的风险始终保持警惕,我们是可以乐观地拥抱AI发展的未来。
王伟平:从AI安全角度来讲,未来已来。无论我们「害怕」与否,潘多拉的盒子已经打开。我们只能去加强AI的安全机制,增强其的安全行为,尽可能控制它。无论大家怎么呼吁,巨大的商业价值和科学家对未知探索的好奇心,不可能再让AI回到原来的状态了。所以只能在现在的基础上去考虑安全性问题。
Hassabis有一个观点,再有十年通用人工智能能实现,在这个道路上,这十年还需要出现两个到三个类似于Transformer的重大发现。我相信未来一定会有通用人工智能的。我们现在所担心的,在未来都是现实,我们要积极拥抱变化,适应变化,提早地制定安全机理和行为规范。
苏航:我认为发展是硬道理,所有安全的问题都需要在发展过程中去解决。现在的人工智能技术仍然处于刚刚起步的阶段,远远还不够。
王晋东:从技术上说,我是乐观的。我相信人类可以从技术上克服AI安全问题。
从AI对社会影响来讲,我的观点是悲观的。AI安全不只涉及到系统或算法安全的层面,还需要考虑社会层面的安全。现在很多发展中国家的失业率已经很高了,如果 AGI 真的到来,会有更多的人被取代。这对整个社会是很大的负担。从长远来讲,我对AI发展对社会的影响持悲观态度。