隐私计算关键技术：隐私集合求交（PSI）原理介绍

最新推荐文章于 2024-07-04 19:28:55 发布

小金子的夏天

最新推荐文章于 2024-07-04 19:28:55 发布

阅读量7.1k

点赞数 1

分类专栏：联邦学习文章标签：安全

本文链接：https://blog.csdn.net/WangYouJin321/article/details/122553193

版权

联邦学习专栏收录该内容

14 篇文章 1 订阅

订阅专栏

参考连接：隐私计算关键技术：隐私集合求交（PSI）原理介绍 - 知乎

隐私集合求交（Private Set Intersection，PSI）

PSI是指，参与双方在不泄露任何额外信息的情况下，得到双方持有数据的交集。在这里，额外的信息指的是除了双方的数据交集以外的任何信息。

隐私集合求交在现实场景中非常有用，比如在纵向联邦学习中做数据对齐，或是在社交软件中，通过通讯录做好友发现。因此，一个安全、快速的隐私集合求交的算法是十分重要的。

我们可以用一种非常直观的方法来进行隐私集合求交，也就是朴素哈希的方法。参与双方A、B，使用同一个哈希函数H，计算他们数据的哈希值，再将哈希过的数据互相发送给对方，然后就能求得交集了。

这种方法看起来非常简单、快速，但是，它是不安全的，有可能会泄露额外的信息。如果参与双方需要求交集的数据本身，数据空间比较小，比如说手机号、身份证号等，那么，一个恶意的参与方，就可以通过哈希碰撞的方式，在有限的时间内，碰撞出对方传过来的哈希值，从而窃取到额外的信息。因此，我们需要设计出更加安全的隐私集合求交的方法。

现在已经有了很多种不同的方法来实现隐私集合求交，比如基于Diffie-Hellman密钥交换的方法、基于不经意传输的方法等等。而截至目前，最快速的隐私集合求交方法，是基于不经意传输的。下面，我们介绍如何使用不经意传输，来实现一个隐私集合求交算法。

不经意传输（Oblivious Transfer，OT）

不经意传输是一种密码学协议，实现了发送将将潜在的许多信息中的一个传递给接收方，但是对接收方所接收的信息保持未知。

一种比较实用的不经意传输方案，被称为1-2不经意传输。在1-2不经意传输中，发送方持有两个数据，接收方可以选择获取其中的一个，但是发送方并不知道接收方选择了哪一个数据。形式化描述如下：

发送方A持有数据和 [公式] ，接收方B持有一个比特，，则1-2不经意传输可以描述为：

其中，B只知道，不知道 [公式] ，而A也不知道。

我们也可以将1-2不经意传输扩展为1-n不经意传输，即接收方能从n个数据中选择获取一个，且对发送方保密。

不经意传输也有很多种实现方式，不过一般都需要实用公私钥加密的方式来实现，比如RSA、椭圆曲线加密等。在本篇文章中，我们不介绍具体的不经意传输协议，读者们可以把不经意传输当作是一个黑盒子，我们接下来详细介绍如何实用不经意传输，来构造一个隐私集合求交的方法。

隐私比较

我们先从最简单的情况开始。假设参与双方A、B，都只有一个元素，这时隐私集合求交，就退化成了隐私比较，即A、B比较持有的元素是否相等，同时不泄露自己持有的元素。

我们假设A持有数据x，B持有数据x。不失一般性，我们假设x与y的字节长度相等，长度为，即 [公式] 。现在，A为数据x的每一位，都生成两个随机的二进制串（服从均匀分布），长度为，即，，。

现在，B作为接收方，A作为发送方，开始执行1-2不经意传输协议。B根据y的每一位，选择A持有的 [公式] 中的一个，即，。B将接收到的个二进制串进行异或，得到一个二进制串，即，，其中表示异或。

发送方A也可以跟B一样，根据x的每一位，选择一个二进制串 [公式] ，将这个二进制串进行异或，得到一个二进制串。当然，A生成的过程不需要使用不经意传输，因为x与K都在A的手中。

之后，A将发送给B，B即可判断x与y是否相等。

这个隐私比较的方法，显然是安全的。B使用不经意传输获得的过程中，由于不经意传输的特性，A不会知道B的数据y；使用异或得到的 [公式] 与，与一个随机的n位二进制串是无法区分的，所以A和B也无法通过或反推出x或y。A作为发送方，不经意传输保证了A无法得到B的数据y（除非）；只要B是诚实的，即不能通过不断执行这个协议来碰撞A的数据，那么B也无法得到A的数据x（除非 [公式] ）。

由隐私比较到不经意伪随机函数

观察隐私比较，我们可以发现，发送方A持有一组二进制串，我们可以将这些二进制串整体当作一个随机种子 [公式] ，由A持有。从B的角度来看，隐私比较的过程，就是B输入数据y，得到一个随机二进制串，这个二进制串由A持有的随机种子与输入y来决定，同时A无法得知B的输入y。这一过程，就可以看作是不经意伪随机函数（Oblivious Pseudorandom Function， OPRF）。

不经意伪随机函数是一种密码学协议[3]，发送方可以选择一个随机种子，接收方可以选择一个输入 [公式] 并得到一个伪随机函数的输出，同时发送方不知道。那么，隐私比较中，接收方B就是执行了一个不经意伪随机函数，发送方A可以执行一个普通的伪随机函数，通过比较和，即可实现隐私比较。

这样来看，我们就是使用不经意伪随机函数，来构建了一个隐私比较算法。接下来，我们要更进一步，看看如何使用不经意伪随机函数，来构建隐私集合求交。

使用不经意伪随机函数构建隐私集合求交

假设A持有一组输入X，B持有一组输入Y，。通过不经意伪随机函数，我们可以构造出一个非常朴素的隐私集合求交算法：

A构造个不经意伪随机函数的种子，
B为Y中的每一个元素y，执行一个对应不经意伪随机函数，得到集合
A为X中的每一个元素x，执行每一个不经意伪随机函数，得到集合
A将集合发送给B，B求交集，再将交集映射回Y，即可得到X与Y的交集

这种方法简单来讲，就是B将每一个Y中的每一个元素，都与A的X中的每一个元素，通过不经意伪随机函数进行隐私比较，进而得到X与Y的交集。

这种方法虽然直观，但是开销很大，因为集合的大小是 [公式] ，当集合大小n增长时，传输量增长很快。

那么，我们有没有办法将集合大小限制在呢？答案是可以的。这需要使用到哈希表的思想。这里，我们使用布谷鸟哈希（Cuckoo hashing）来解决这个问题。

我们首先简单介绍一下布谷鸟哈希。假设我们想要使用布谷鸟哈希，将n条数据放入个桶中，则我们首先选择3个哈希函数 [公式] ，以及b个空的桶。要放入一条数据，首先查看3个桶，，是否有空的，如果有空的，则将放入空桶。如果没有空桶，则从这三个桶中随机选择一个桶，，踢出原来在这个桶中的元素，并将x放进这个桶中，然后再继续尝试插入被踢出的元素 [公式] 。递归地执行这一过程，直到元素被放入一个空桶中。如果经过一定轮次后，仍然找不到空桶放入元素，那么就将被踢出的元素放到一个特殊的桶中，这个桶被称为储藏桶。

现在回到隐私集合求交的构建中，让我们看看如何在隐私集合求交中使用布谷鸟哈希。首先，A、B双方共同选择三个哈希函数。然后，B将其持有的 [公式] 个元素Y，使用布谷鸟哈希，放入个桶与一个储藏桶中，储藏桶的大小为。对B来说，现在每个桶中最多只有一个元素，并且储藏桶的中，最多有个元素。现在B可以构造假数据，将这些桶和储藏桶都填满，使每个桶中都有一个元素，且储藏同中正好有 [公式] 个元素。

然后，A可以生成个随机种子 [公式] ，用作个不经意伪随机函数的随机种子。B作为接收方，为其桶中的每一个元素，计算不经意伪随机函数。如果被放在号桶中，则计算，如果被放在了储藏桶中的第个位置，则计算。

另一边，A作为发送方，可以任意地计算伪随机函数，那么，A可以为其输入X计算以下两个集合：

[公式]

A将集合和集合 [公式] 中的元素打乱，并将这两个集合发送给B。对于B来说，如果一个元素被放到储藏桶中，则B可以在集合中查找对应的不经意伪随机函数输出；否则，就在集合中查找。通过查找，就可以得到X与Y的交集。

通过计算，我们可以发现，集合的大小为 [公式] ，集合的大小为，是一个常数，因此A需要传输的数据量为，是的。通过结合布谷鸟哈希，我们减少了协议所需要传输的数据量，加快了协议的执行速度。

显然，使用不经意伪随机函数构造的隐私集合求交算法，是安全的。由于不经意伪随机函数的特性，发送方A无法得知接收方B的输入。同时，对于集合中的元素，其经过伪随机函数的输出，与一个随机的二进制串无法区分，因此B也无法从伪随机函数的输出中反推出输入。在B是诚实的条件下（不能无限次地执行不经意伪随机函数来进行碰撞），这个协议是安全的。

小金子的夏天

关注

1
点赞
踩
17

收藏

觉得还不错? 一键收藏
打赏
1
评论
隐私计算关键技术：隐私集合求交（PSI）原理介绍

参考连接：隐私计算关键技术：隐私集合求交（PSI）原理介绍 - 知乎隐私集合求交（Private Set Intersection，PSI）PSI是指，参与双方在不泄露任何额外信息的情况下，得到双方持有数据的交集。在这里，额外的信息指的是除了双方的数据交集以外的任何信息。隐私集合求交在现实场景中非常有用，比如在纵向联邦学习中做数据对齐，或是在社交软件中，通过通讯录做好友发现。因此，一个安全、快速的隐私集合求交的算法是十分重要的。我们可以用一种非常直观的方法来进行隐私集合求交，也就是朴素哈
复制链接

扫一扫