大数据中的隐私挑战
互联网从根本上增加了社会可访问的信息规模并减少了摩擦。尽管如此,它只能为个人和组织乐于分享的数据做到这一点,这些数据没有竞争力或价值。
今天的大数据人工智能应用在回答世界上最紧迫的问题时仍然面临两个重大挑战。一些问题包括:如何治愈癌症?如何解决气候变化?如何防止洗钱?等等。第一个挑战是数据以孤立或分散的岛屿形式存在,难以访问。第二个挑战是解决如何加强数据隐私和安全性。 分散数据基础设施
的当前数据所有者有充分的理由避免将其发布用于科学研究,因为此类数据具有商业价值或对隐私敏感。个人数据科学家或小型机构访问数据以产生有价值的见解的行为是一项巨大的挑战。这些孤岛上的分布式数据可以回答机构、医院、金融组织等对其数据拥有版权的问题。
想象一下,如果我们可以创建一个假设的集中式数据中心来应对挑战,同时提供对数据科学家的访问作为解决方案之一。这样做可以在数据丢失、隐私泄露或竞争禁令的情况下会引发复杂性和担忧。高延迟、数据上限、消耗巨大的电池寿命和带宽问题等技术问题可能成为另一个重大挑战。管理如此庞大的基础设施需要一群人,而这样的群体在未来将变得更加强大,因为他们将拥有和控制所有数据。即使我们引入了强有力的法规和政策来防止这样一个中心化的机构造成意外或故意的隐私泄露,它仍然可能导致维护此类政策的复杂性。
“当前的分散式基础设施”或“假设的集中式大规模数据库”的创建只会挑战和限制我们回答重要问题的能力,因为我们无法访问越来越复杂的现有数据。
隐私增强技术 (PET) 旨在通过增强个人在数据保持分散(数据不会离开设备)的同时私密和安全地执行数据分析的能力来缓解这些紧张局势。
在 OpenMined,我们相信数据科学的未来是“远程数据科学”,这将使我们能够访问比目前多一千倍的数据,并通过利用隐私增强技术解决世界上最紧迫的问题。
为什么选择远程数据科学?
OpenMined 引入了“远程数据科学”,因为它认为这是私有数据科学的未来。它使用隐私保护增强技术 (PET) 对远程可用的数据集执行数据科学,同时在自动防止隐私泄露的端到端基础架构中保持数据集的私密性。
远程数据科学为数据科学家和数据所有者提供了三个隐私保障:
1.通过使用“联合学习”将算法引入设备上的数据,防止数据科学家复制数据,从而确保数据永远不会离开设备。
联邦学习是一个框架,用于在客户拥有的设备上的分散数据上训练一个共享的全局模型。
图1
图 1 解释了将算法引入本地存储数据的最简单形式的联合学习框架,避免了每次需要分析数据时都复制数据的必要性。
客户是数据所有者,他们可以是个人设备所有者,也可以是组织孤岛(例如,个别医院、机构甚至财团的数据中心等)。中央服务器的作用是根据来自客户端的模型参数的新更新来协调发送共享的全局模型和聚合更新。
连接到中央服务器的客户端下载具有模型参数的共享全局模型。例如,如果您正在运行线性回归模型,则截距和斜率将是参数。该模型被保存为本地模型以独立训练他们的数据。客户端将使用中央服务器中聚合的更新模型参数发送本地模型更新。接收模型权重、训练数据和发送更新的权重的过程一直持续到达到预期的模型精度。
2. 通过以加密形式存储数据来防止隐私泄露,同时确保 使用
“同态加密”、“安全多方计算”和“函数加密”对加密数据进行计算。
2.1)同态加密确保对
加密数据执行计算。
图 2(来源:完全同态加密的十年,作者:Craig Gentry)
图 2 说明 Alice 想要使用云计算,并且她希望将她的数据私下存储在云中。使用私钥“加密数据:E[data(x), private key(k)]”对数据进行加密,并存储在服务器中。当她想使用“Query:function(f)”对加密数据执行查询时(注意该函数也可以被加密),查询在服务器上使用同态加密“Evaluation: Eval[f(x) , E(k,x)]”使用产生密文的算法。密文“Reply: E[private key(k),f(x)]”由 Alice 使用私钥解密。
2.2)安全多方计算使各方能够安全地对敏感数据进行分布式计算,而不会引入单点故障。
图 - 3
上面是一个示例,其中安全多方计算(SMPC)适用。它解释了当银行 A 和 B 将其数据存储在一个云提供商而不是多个云提供商时会发生什么。使用单一云提供商存储数据可能会导致单点故障;相反,如果银行将其数据存储在各种云存储提供商中,将提供数据的高可用性。
SMPC 协议还允许安排在一组方之间执行联合功能计算。没有中央方做所有的计算;相反,所有各方都参与了共享计算,以得出做出年度投资决策所需的集体季度收益。他们学到的只是彼此的输出。A银行使用SMPC对多方存储的加密数据(A1、A2、A3)进行分布式联合计算。
2.3) 功能加密
图 4(来源:隐私教学系列:什么是功能加密?)
让我们通过一个例子来理解功能加密。假设 Alice 持有数据 a = 3, b = 5 并且 Bob 想知道 (a+b) 的值,但是 a 和 b 是加密的。假设 Alice 提供对 bob 的访问以计算加密变量 a 和 b 的函数。Bob 可以“解密形式”访问函数的结果,甚至无需访问变量的解密值。完全同态加密(FHE)和函数加密(FE)之间的区别在于,完全同态加密的“结果”将采用加密形式。同时,FHE 可以对加密形式的密文进行数学运算。
3. 输出隐私可以通过防止统计计算记忆数据来实现,最显着的是“差分隐私”。
差分隐私描述了对隐私保证的承诺。由数据所有者或策展人向数据主体做出的“无论有什么其他研究、数据集或信息源可用,允许您的数据用于任何研究或分析,您都不会受到不利或其他影响”。
原始数据库(x)中包含个人的敏感信息。如果某个人被删除或添加到数据库中,则这种更新的数据库称为替代数据库(y)。差分隐私旨在通过使用算法“M”计算函数来回答问题,该算法不会给出原始数据库(x)和替代数据库(y)之间的差异,从而损害个人信息。
例如,第三方医院“A”安排了“X”公司的健康检查,结果存储在“X”公司的数据库中。允许医院在不泄露个人敏感信息的情况下对数据库执行计算。假设医院内外有对手提出第一个查询,“查询 1:总共有多少人患有心血管疾病(CVD)?” 并收到 20 的结果。对手进一步执行“差异攻击”,并根据第一个查询“Q2:除了主管之外有多少人患有 CVD?”,选择不道德地访问个人信息。假设公司“X”的董事是数据库的一部分。在这种情况下,
差异化攻击导致参与者不信任共享他们的数据,而这些数据可能是与其他医院为解决心血管疾病而形成的更大数据集的一部分。
每年约有 1790 万人死于心血管疾病。如果隐私泄露问题可以解决,将有更多的数据集可用,从而提高检测甚至预防心血管疾病的准确性。
图 5:差分隐私的定义
差分隐私的数学定义指出,随机算法“M”为所有数据集对 x 和 y 仅在一行中提供“𝝐”差分隐私。当非常小几乎等于零时,那么“𝝐 = 1+𝝐”就意味着两个数据集的概率相同?这也意味着当我们的隐私损失为零时,这意味着我们对数据集差异和更高级别的隐私的信息为零。
隐私预算 (epsilon) 是分配给数据科学家的预先确定的 epsilon 值,数据所有者可以使用它来控制数据科学家访问信息的程度。
如果将所有这些隐私保护技术(PET) “联邦学习”、“安全多方计算”、“完全同态加密”和“差分隐私”作为集成技术的组合应用,则可以提供 足够的端到端保证使用远程数据科学对私有数据 进行数据科学。
谢谢 :) !!
* 感谢 Mark Rhode(OpenMined 通信导航团队负责人)帮助我多次修改我的博客。
* 感谢 Kyoko Eng(OpenMined 产品负责人)帮助我重新设计图表。
* 感谢 Madhava Jay(OpenMined 核心工程团队负责人)阐明远程数据科学的架构概念。
* 致 Ionesio Junior(OpenMined AI 研究员)就“域节点示例”图提供反馈。
* 并且,感谢 Abinav Ravi(OpenMined 通信写作团队负责人兼研究工程师)审阅我的博客并指导我与其他团队进行协调。
参考:
1. 远程数据科学
导论 2. 远程数据科学导论 | Andrew Trask
3.Towards General-Purpose Infrastructure for protection of science data under study
4. UN list of Global Issues
5.Federated learning with TensorFlow Federated (TF World '19)
- 这篇文章的作者:
-