想让AI更安全可靠,从了解算法的泛化能力开始

本文探讨了深度学习算法的泛化能力对其安全性和可靠性的至关重要性。通过介绍统计学习理论、传统泛化方法如VC维和Rademacher复杂度,以及新方法如基于范数的容量度量和压缩方法,强调了泛化误差上限估计的挑战。文章指出,理解并改进深度学习模型的泛化能力是确保其在实际应用中表现稳定的关键,同时也提出了未来研究的方向。
摘要由CSDN通过智能技术生成

全文共4016字,预计学习时长8分钟

在新数据中,深度学习系统执行(泛化)能力如何?其性能如何?要想建立AI系统的信赖度和可靠性,必须估计算法的泛化能力。

我们能信任AI吗?AI是否会像人类酗酒一样毫无顾忌?一但AI启动,是否会毁灭世界?

统计学习理论意义何在?

AI系统必须安全可靠,一旦启动AI,算法才能按预期执行。确保AI算法性能良好是提高其采用度和信任度的必由之路 [5]。

此外,决策人在欧盟委员会发布的《可信赖AI的伦理准则》(《ETHICS GUIDELINES FOR TRUSTWORTHY AI》)中明确规定要了解算法的泛化能力。

然而,模型泛化性(泛化理论)研究领域依然投资不足。目前唯一可继续且可行的标准方法是进行数据拆分、验证集和测试集。然而,尽管在无法量化算法的泛化能力时,在测试(留出)集上进行估计不失明智;但这一过程非常棘手,可能发生数据泄漏的风险,需要另外进行独立性假设(独立性验证的参数单独从留出集中选出),但会与p-hacking 等实践所混淆[20]。

什么是泛化?

数据是由潜在的未知分布D生成的,这是上述工作的关键性假设。统计学习并非直接访问分布,而是假定给出了训练样本S,其中S的每个元素均由D生成,并呈独立同分布。学习算法从函数空间(假设类)H中选择函数(假设h),其中H = {f(x,α)},α是参数向量。

于是,假设h的泛化误差可定义为:从分布D中选取的样本x的预期误差与经验损失(给定样本S上的损失)之间的差值 [4,11]。

我们的任务是给泛化错误设定上限,看究竟会出现多么严重的泛化错误。

传统方法:模型能力

传统泛化理论中,根据假设类H的复杂度(容量)建立泛化能力模型。简单来说,类的“容量”取决于可以在这个类上拟合良好的数据集的数量。类的容量越大,这个类就越灵活,但也越容易过度拟合。[..]容量控制使用的是更加灵活的模型,以获得良好拟合,那些非常灵活但过度拟合的模型则弃之不用[8]。

如何界定假设类H的复杂性?传统泛化理论概念包括VC维、Rademacher复杂度和PAC-Bayes边界。

VC维和死亡神经元

VC(Vapnik-Chervonenkis)维是一种通过评估函数弯曲程度来衡量函数类的复杂度的一种方式,H类的VC维即可以被H打散的最大样本点数目。如果一组样本点都能被函数打散,无论为一组内所有样本点分配什么样的二进制标签,该类样本都可以将其完美分离。[5]

图1 参数数量激增,但测试误差没有骤增[1]

Zhang等人

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值