图灵奖获得者、信息安全常青树Adi Shamir：从密码学到AI对抗性样本研究

来源：智源大会

导读：RSA 算法是通信、金融产业中被广泛使用的安全基本机制，是信息时代的支柱技术。而在这个跨时代算法背后的设计者之一，正是密码学先驱 Adi Shamir。除了RSA 公钥密码算法以外，零知识证明、差分密码分析、多变元公钥密码体制分析和对称密码分析等一系列具有划时代意义的信息安全研究成果背后都有他的身影。

2002 年，因在 RSA 公钥密码算法上做出的杰出贡献，Adi Shamir 与麻省理工学院教授 Ronald L. Rivest 和加州大学伯克利分校教授 Leonard M. Adleman-Ronald 荣膺图灵奖。而近十年，他已将自己最新的研究方向，瞄准了人工智能。

石破天惊：RSA 公钥密码算法

1978 年，Adi Shamir 加入了麻省理工学院，与 Ronald L. Rivest 和 Leonard M. Adleman 一同从事密码学研究。受到密码学家 Whitfield Diffie 和 Martin Hellman 的论文「New Directions in Cryptography」的启发，他们于 1977 年在《Communications of the ACM》期刊上发表了对后世影响深远的论文「A method for obtaining digital signatures and public-key cryptosystems」。

RSA名字来自于它的三位发明人，Shamir、Rivest和Adleman

在这篇论文中，他们展示了如何在几乎不会被第三方解码的情况下，在信息的发送双方之间对消息进行编解码。该方法使用两个不同但在数学上相关联的密钥：一个用于加密消息的公钥，另一个用于解密消息的完全不同的私钥。加密密钥由希望接收消息的个人公开，但秘密的解密密钥只有信息收发双方知道。这两个密钥通过一些定义明确的数学关系相关联，但是几乎不可能根据公开的信息确定解密密钥，或者这种解密过程需要耗费过于高昂的计算开销。时至今日，RSA 成为了几乎所有基于互联网的商业交易的基石。

Adi Shamir的另一个重要贡献是Shamir's Secret Sharing。秘密共享（Secret Sharing，SS）是1979年由Shamir和Blakey提出的，并在此之后40多年秘密共享被广泛认识和深入的研究，Shamir秘密共享是目前应用最为广泛的阈值秘密共享技术，在数据安全、隐私计算以及区块链等领域有广泛应用。

秘密共享的基本概念将秘密分割后由不同的参与者进行管理，单个参与者无法恢复秘密信息，只有若干个参与者共同协作才能恢复。秘密共享著名的(t，n)阈值方案如图1所示：设秘密s被分成n个部分，每一部分被称为一个子秘密并由一个持有者持有，并且大于等于t个参与者所持有的子秘密可以重构(Reconstruction)秘密s，而少于t个参与者所持有的子秘密无法重构秘密并且无法获得秘密s的任何信息。

图1 秘密分享的结构

高瞻远瞩：图灵奖获奖发言

2002 年，Adi Shamir 因其在公钥加密算法研究与应用方面的突出贡献获得了图灵奖。在颁奖典礼上，Adi Shamir 发表了题为「Cryptography：State of the Science」的主题演讲。在 Shamir看来，密码学正逐渐从神秘走向公开，从艺术转变为科学，它对现实世界的影响与日俱增。

上世纪 90 年代，尽管人们对加密技术有重大需求，但以美国为代表的多国政府认为鲁棒、不可恢复的加密技术会妨碍我们打击犯罪和恐怖主义，对其持怀疑态度，进行了严格的审查，试图控制信息加密技术。然而，在巨大的需求刺激以及 Shamir 等科研工作者的推动下，密码学领域蓬勃发展，吸引了大量的科研工作者、工业界从业者参与其中。

密码学与数学、统计学、通信、信息论等学科紧密相关，该领域的相关研究对算力的要求也很高。此外，密码学研究的理论与实践之间有非常紧密的联系，Shamir 将该领域的研究概括为：（1）「实践化的理论」，将抽象的数学工具应用于密码学领域，使用各种逻辑理论技术证明真实协议的安全性，开发新的密码方案。（2）「理论化的实践」，为安全性、攻击、复杂性、随机性给出新的定义，将实践工具理论化定义。

在图灵奖的主题演讲中，Shamir 针对信息安全提出了三条重要的法则：

（1）不存在绝对安全的系统，我们应建立起「足够安全」的概念，而不应该追求过度的设计；

（2）为了将系统的脆弱性减半，我们需要花费双倍的成本；

（3）加密算法往往并不是安全系统最大的弱点，很少有黑客通过深入分析数学运算渗透到系统中，他们往往采取其它更简单的方法。我们无需设计过于复杂的密码系统。

此后，Shamir 从「密码学理论」、「公钥加密和签名方案」、「分组密码」、「流密码」、「理论化的密码学协议」等方面介绍了当时密码学研究的相关领域的定义、研究现状，以及面临的挑战。其中，Shamir 介绍的差分密码分析、零知识证明、分组密码、流密码等概念至今仍然是密码学领域研究的重要课题。

历久弥坚：深度学习时代的 Adi Shamir

作为信息安全领域的常青树，Adi Shamir 一直活跃在科学研究的最前沿。近年来，随着机器学习技术的大规模应用，Adi Shamir 也将研究的目光投向了可信机器学习领域。实际上，Shamir 早在 1994 年就提出了「视觉密码学」的概念。信息收发双方可以将图片分解为两份白色和暗像素的随机散射片段。当这两份片段完全重叠时，就会出现真实的消息。因此，如果有人设法收集了除其中一部分片段，仍然无法读出任何有用的消息。除了将所有片段重合，第三方无法通过重构缺失的部分来揭示秘密信息。

图2 视觉密码学示例：当两个大小相同的黑白像素图像叠加在一起时就会出现特殊字样。

2013年，Szegedy 等人通过实验发现了对抗样本的存在，当我们向输入加入一个人类难以察觉的变化，就可以欺骗训练良好的神经网络。从那时起，这一课题就成为了机器学习的最热门的研究领域之一。这一领域还存在许多未解之谜，例如：我们仍然不清楚是哪些参数决定了为了误导网络需要的输入坐标的数量。

2019 年，Adi Shamir 作为第一作者完成了论文「A Simple Explanation for the Existence of Adversarial Examples with Small Hamming Distance」。在本文中，Shamir 建立了一个简单的数学框架，使我们能够从一个新的角度来思考令人困惑的对抗样本。他们将对抗样本看做具有（Hamming）度规的空间中的几何的自然结果，从而对其进行定量分析。Shamir 等人解释了为什么我们应该期望在任意深度的被设计用来区分 m 个输入类的神经网络中找到汉明距离约为 m 的目标对抗样本。

图3 使用同一组 11 个像素，通过不同程度的扰动改变输入数字「7」，输出任何其它数字的预测向量。红色点的像素值会减少，绿色点的像素值会增加。

同样是针对机器学习中的对抗性样本问题，Adi Shamir 在其 2021 年完成的最新研究成果「The Dimpled Manifold Model of Adversarial Examples in Machine Learning」中，引入了一个新的概念框架（凹形流形模型），对对抗样本的存在提供了一种简单的解释。该模型可以解释为什么它们的扰动范数如此之小，为什么这些扰动看起来像随机噪声，为什么用错误标记的图像进行对抗训练的网络仍然能够正确地对测试图像进行分类。论文中大量实验的结果表明这一新模型是有效的，对抗扰动大致正交于包含所有训练例子的低维流形。

图4 （左）旧的心理图像模型（中）图像流形（右）新提出的决策边界

基于其团队在对抗性样本、可信机器学习等方面发表的一系列研究成果。Adi Shamir 将在 2022 年智源大会上带来题为「机器学习中对抗样本的新理论」的专题报告，报告摘要如下：

2013年，几个研究小组独立发现了深层神经网络在输入端存在微小扰动时是极度脆弱的。由于其神秘的特性和重大的安全影响，研究人员在过去八年中对这些对抗样本进行了广泛的研究。尽管付出了巨大的努力，但这些对抗样本仍然令人困惑，人们至今仍然很难为其给出明确的解释。例如，有些图片的表征与带有「猫」标签的图片距离很小，但是它们却被以很高的置信度识别为汽车、飞机、青蛙、马或者其它人们所期望的类别；当我们对一张「猫」的图片进行对抗性修改，即使修改后的图片与汽车一点也不像，但是神经网络也可能将其识别为汽车；此外，当我们使用随机排列的标签对网络进行对抗性训练，使其不会看到任何看起来像「猫」的图片带有「猫」的标签，网络仍然会将大多数的猫识别为猫。

本次演讲旨在介绍一种新的对抗样本理论——「Dimpled 流形模型」。它可以简单而又直观地解释对抗性样本存在的原因以及为什么它们具有上述奇异属性。此外，它还为解释机器学习中更广泛的问题提供了新的线索，例如在常规训练和对抗训练中深度神经网络会如何工作。本次演讲还将介绍一系列为验证该理论展开的实验。

未来智能实验室的主要工作包括：建立AI智能系统智商评测体系，开展世界人工智能智商评测；开展互联网（城市）大脑研究计划，构建互联网（城市）大脑技术和企业图谱，为提升企业，行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

如果您对实验室的研究感兴趣，欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”