干货 | 探索可信机器学习的新路径 伊利诺伊大学安全学习实验室

点击蓝字

896184cd5e67f92a492b29701387d104.jpeg

关注我们

AI TIME欢迎每一位AI爱好者的加入!

随着人工智能机器学习迅速发展,它们已经成为我们日常生活和商业等领域的重要一部分。然而,机器学习的广泛应用也引发了一些重要的问题和挑战,其中之一就是可信度。可信机器学习不仅关系到个人隐私和数据安全,还关系到社会的发展,是一个备受关注的话题。2023年10月19、20日,AI TIME“Global AI Lab”系列活动邀请了伊利诺伊大学安全学习实验室SL2,8位嘉宾聚焦可信机器学习,探讨了提高机器学习模型可靠性、安全性及鲁棒性等前沿研究。

大语言模型时代的可信机器学习

李博:

我们正处在一个大语言模型时代,人工智能的发展对于我们有着深刻的影响,我们可以创建十分智能的模型,但与之同时也引发了一些新的挑战和问题,可信机器学习变得尤为关键。

李博教授了介绍实验室的主要目标研究:设计健壮、私有和可推广的具有理论保证的现实世界应用的机器学习范例。我们需确保所建立的模型不仅仅是功能强大的,还要是可信的。这意味着需要思考如何应对数据隐私和安全性的问题,如何处理模型的不确定性,以及如何识别和防御对抗性攻击。其中,李博教授分享了实验室的一篇工作“DecodingTrust GPT”,定义了八个可信度视角进行评测,为大语言模型提供了首个全面的可信度评估平台,丰富了不同领域的机器学习模型可信平台。

后门检测的普适性——方法与新的挑战

向臻:

后门攻击是针对深度神经网络的一种重要的对抗性威胁。当测试样本被嵌入后门触发器时,这些来自一个或多个源类的测试样本将被分类为攻击者的目标类。在本场报告的分享中,向臻博士重点关注基于模型检测的后门防御,提出了一种可以无需对后门嵌入方式做出任何假设的检测方法。该方法利用后门攻击对softmax层之前的分类器输出函数的影响,对于每个类别估计一个最大边际统计量。然后通过将无监督异常检测器应用于这些统计数据来执行检测推断。因此,检测器不需要任何样本,就可以有效地检测具有任意数量的源类的后门攻击。

同时,针对大模型上的后门攻击研究,向臻博士分享了其最新的工作BadChain。该攻击不会影响大模型本身,而是通过篡改提示词实现攻击效果。攻击者通过嵌入一个后门推理步骤以连接常规的思维链步骤和有害的目标答案。这一方法的优点在于其维持了大模型在解决复杂推理任务时推理步骤的逻辑连贯性。

最后,向臻博士也提出了自己对于后门检测未来工作和发展方向的看法,他希望能为后门学习建立一套理论框架,可以实现一种通用的后门防御方法,将后门攻击和防御拓展到其他的领域。

基于博弈论的针对联邦学习后门攻击的防御

袁焯闻

联邦学习是一种分散式机器学习方法,其中多个参与方(例如设备、云服务器或其他数据持有者)合作训练全局模型,而不共享原始数据,但这有可能受到恶意参与方的影响。后门攻击是一种隐蔽攻击,攻击者通过在训练数据中插入特定的后门模式,使全局模型在接收到特定触发条件时产生误导的预测结果。然而,目前研究中的防御措施不足以应对动态攻击,其中攻击者可以动态调整其攻击策略,当对手的百分比超过50%时,大多数防御措施都会失败。

针对上述挑战,袁焯闻介绍了一种新方法,通过将攻击者和防御者之间的竞争制定为一个博弈模型来应对上述挑战,提出了FedGame,这是第一个针对联邦学习动态后门攻击的博弈论防御,也为联邦博弈提供了理论保障。报告中,他展示了全球在后门攻击下使用FedGame训练的模型接近于没有攻击的模型。FedGame在基准数据集上的系统评估,也证明FedGame了显著优于最先进的基线,是一种有效防御联邦学习后门攻击的方法。

强化学习及自动驾驶的场景测试及安全性评估

徐彻鉴:

机器学习感知和决策算法的进步,使自动驾驶系统在过去几年中取得了重大发展。在现实世界中大规模部署的一项关键挑战是其安全评估。大多数现有的驾驶系统仍然是根据从日常生活中收集的自然场景或启发式生成的对抗场景来进行训练和评估的,但是在真实的世界数据集中,安全关键场景很少见,因而人工生成场景的方法对于衡量风险和降低成本至关重要。

徐彻鉴在本次报告中为大家介绍了一种全新的自动驾驶评估方法,提供一个统一平台SafeBench,以集成不同类型的安全关键测试场景、场景生成算法以及其他变化,这对于新测试场景生成和安全自动驾驶算法的开发具有重要推动作用。此外,他也针对自动驾驶安全关键场景难以获取的问题分享了一种统一的方法——基于扩散模型的安全关键场景生成(DiffScene),来生成高质量的安全场景,以此实现高效且安全的自动驾驶评估。广泛的实验验证了该方法的有效性与可行性,同时也展现了DiffScene在解决自动驾驶安全评估挑战方面的潜力。

可验证鲁棒性的利用外部知识的模型推理框架

张佳玮

尽管机器学习,尤其是深度神经网络在不同的应用中取得了巨大的成功,但它们也被发现容易受到微小的对抗性扰动的影响,从而可能导致错误的预测。对于机器学习系统的大规模部署,特别是在自动驾驶和医疗诊断等安全关键场景中,提高机器学习模型的鲁棒性非常重要,因此在该类研究中迫切需要可靠的防御机制。

然而,大多数经验防御都可以再次受到适应性攻击,并且理论上证明的稳健性是有限的,尤其是在大规模数据集上,根本原因之一在于深度神经网络缺乏稳健可靠预测的推理能力。在报告中,张佳玮介绍了一种可扩展、可证明稳健的机器学习框架CARE,它由数据驱动的学习组件和基于知识的推理组件组成,通过集成知识来实现可靠预测的推理能力。实现上,主要是通过图神经网络逼近马尔可夫逻辑网的推断来达到最终的基于额外知识的鲁棒预测。而广泛的实验分析证明,当将学习与推理相结合时,CARE可以有效地扩展到大型数据集,并实现高认证的稳健性和经验稳健性。

DecodingTrust GPT模型信任解码:全方位的模型可靠性评估

汪博欣

机器学习,特别是大语言模型在功能上取得了重大突破,也实现了广泛的应用。但是目前GPT模型的可信度仍然有限,如果从业者将功能强大的GPT模型用于医疗保健和金融等敏感应用,哪怕是微小的错误也会导致付出高昂的代价。现有对大语言模型的可信度评估主要集中在特定的角度,例如稳健性或过度自信,这对于大模型能力的评估是不够的。在报告中汪博欣提出了对大语言模型的全面可信度评估,考虑不同的衡量模型可信度的角度,包括有毒性的输出、刻板印象偏差、对抗性鲁棒性、分布外鲁棒性、对抗性鲁棒性演示、隐私、机器道德和公平。评估结果显示,GPT 模型很容易被误导,容易产生有毒和带偏见性的输出,并泄露训练数据和对话历史记录中的私人信息。总体来看,GPT-4 在不同指标下的表现都比 GPT-3.5 表现更好。然而,当存在越狱或误导性系统提示或通过上下文学习进行演示时,GPT-4 更容易被操作,因为它更精确地遵循指令,而这可能带来了更多模型可信度的隐患。

可证明鲁棒性的学习-推理共形预测框架

康敏桐

当涉及数据驱动的机器学习模型时,常常会面临各种漏洞和挑战。机器学习模型可能受到对抗性扰动的影响,误导模型的输出。此外,过度自信也是一个常见的问题,即模型对其预测的置信度过高,而实际性能可能不如预期。为了提高机器学习模型的可靠性和鲁棒性,如对抗性训练技术、使用经过认证的鲁棒性验证等方法也在不断被应用。

康敏桐分享了一种可证明鲁棒的共形预测框架-COLEP,通过引入一些领域知识,来支持逻辑推理,并利用该框架推导出了共形预测的概率保证。同时,他从理论上证明了通过使用推理的组件,COLEP实现了比单个标准机器学习模型更好的预测精度,同时在不同应用的实验也证明了COLEP在GTSRB、CIFAR-10和AwA2上的有效性。

联邦学习的安全与隐私及其内在联系

谢楚琳

联邦学习(FL)作为一种分布式学习范式,它聚合来自不同客户的信息来训练共享的全局模型,已经取得了巨大的成功。然而,恶意客户端可以执行数据攻击和模型替换,将后门引入经过训练的全局模型中。尽管已经有大量研究设计了针对后门的稳健聚合方法和经验性的鲁棒联邦训练方法,但现有方法缺乏鲁棒性认证。

谢楚琳在报告中给大家分享了其工作中提出的第一个可验证鲁棒的联邦学习通用框架(CRFL),用于训练可验证鲁棒的联邦学习模型来对抗后门。CRFL在训练期间采用模型参数裁剪和扰动,并在测试期间使用模型参数平滑,验证了在一定条件下模型将给出与干净模型一致的预测。她也分析了差分隐私和联邦学习中可认证鲁棒性之间的内在联系,通过引入两个可验证的标准,证明满足用户级(样本级)的差分隐私的联邦学习模型对于有限数量的对抗性用户(样本)具有可验证的鲁棒性,并提供了正式的差分隐私分析,实现了改进的样本级隐私。

提醒

点击“阅读原文”可以观看回放哦~

往期精彩文章推荐

5f2de687c9dd9accae59ce692053c8a4.jpeg

记得关注我们呀!每天都有新知识!

 关于AI TIME 

AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。

迄今为止,AI TIME已经邀请了1400多位海内外讲者,举办了逾600场活动,超600万人次观看

da74d929c35f211c3243cfc6e61871bc.png

我知道你

在看

~

7c35c9fefce94517e1078e3195d20340.gif

点击 阅读原文 观看回放!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值