（阅读笔记）Faster Private Set Intersection based on OT Extension

黑心Cookie

已于 2023-07-26 14:38:03 修改

阅读量441

点赞数

分类专栏：安全多方计算隐私保护与机器学习文章标签：笔记网络

于 2023-07-23 19:20:34 首次发布

本文链接：https://blog.csdn.net/USTC_CLOWN/article/details/131851119

版权

安全多方计算同时被 2 个专栏收录

5 篇文章 1 订阅

订阅专栏

隐私保护与机器学习

5 篇文章 0 订阅

订阅专栏

文章探讨了隐私集合交集(PSI)协议的不同方法，包括公钥基础、电路基础、基于OT和第三方基础的协议，并重点介绍了使用OT扩展和BloomFilter优化的PSI协议。作者提出了一种新的OT-basedPSI协议，通过实验对比展示了其效率优势。此外，文章还讨论了如何使用GMW协议优化电路基础的PSI，并介绍了使用BloomFilter和随机OT扩展的优化策略。

摘要由CSDN通过智能技术生成

这篇文章是Benny Pinkas，Thomas Schneider和Michael Zohner三人发表在14年USENIX上的文章，链接为：Faster Private Set Intersection Based on OT Extension

摘要

PSI（Private set intersection，隐私数据集求交）允许两方 $P_1, P_2$ 计算他们各自拥有的数据集 $X, Y$ 的交集 $X\bigcap Y$ ，但是不揭露交集外的数据集的任何信息。
本文的主要工作是介绍通用的PSI协议（基于安全计算和Bloom filters) 并利用 OT 扩展技术进行优化的方法，提出一个新的以 OT 为基础的PSI协议，并与其他 PSI协议的实验结果进行比较。

一、现有PSI协议

对于PSI问题，一个不成熟的解决方案是：对双方各自的输入用hash函数加密，然后比较hash结果是否一致。虽然这个方法很高效，但是不安全，如果输入域不大或者加密不高，很容易被暴力破解。常用的PSI协议方案多基于公钥加密、电路、OT、三方等。

Public-Key-Based PSI

基于公钥加密方法的PSI协议多基于 Diffie-Hellmann (DH)密钥协商方法，其他协议引入了插值多项式、blind-RSA、加法同态加密等技术。DH-based protocol在通信方面是最高效的，因此适用于距离远但计算能力强的参与方。

Circuit-Based PSI

算术电路、布尔电路、姚氏电路均可用于PSI，通用的 circuit-based protocol 要比 public-key-based protocol 低效，但是在计算交集的变量时更灵活更简单。

OT-Based PSI

主要使用了Bloom filters 和 OT 扩展技术。
在 $\left ( \begin{array}{c} 2\\1 \end{array} \right )-OT_l^m$ 中，发送方 $S$ 持有 $m$ 个消息对 $(x_0^i,x_1^i), x_0^i,x_1^i \in\{0,1\}^l$ , 接收方持有 $m$ 比特的选择向量 $b$ ，协议结束后 $R$ 获得 $x^i_{b[i]}$ 且不知道 $x^i_{b[1-i]}$ 的任何信息。OT扩展技术将 $OT^m_l$ 昂贵的公钥操作降低为 $OT^{\kappa}_{\kappa}$ .

Third Party-Based PSI

引入额外的参与方。

PSI协议效率对比

在这里插入图片描述

二、PSI协议优化

Notation

假设参与的双方是 $P_1, P_2$ , 各自拥有的数据集分别是 $X, Y$ ，其中 $X|=n_1, |Y|=n_2$ , $X, Y$ 中的元素分别记为 $x, y$ ，每一个元素的长度均为 $\sigma bit$ 。
$a, b$ 均为 $bi t$ 串， $a\wedge b$ 表示其按位与操作， $a\oplus b$ 表示其按位异或操作。
$\left ( \begin{array}{c} N\\1 \end{array} \right )-OT_l^m$ 表示 $m$ 个并行的 1-out-of-N OT传输长为 $l$ 的比特串。
$\kappa$ 为对称安全参数， $\rho$ 为非对称安全参数， $\lambda$ 为统计安全参数。

威胁模型：半诚实敌手、恶意敌手

Circuit-Based PSI

GMW 协议

假设 $P_1,P_2$ 分别拥有输入比特 $u, v$ ，他们分别对其作分享 $u=u_1\oplus u_2, v=v_1\oplus v_2$ , 在输入线为 $u, v$ ，输出线为 $w$ 的 $XOR$ 门中， $P_i, i\in\{1,2\}$ 本地计算 $w_i=u_i\oplus v_i$ .
$A N D$ 门需要用到乘法三元组 $(\alpha_1, \alpha_2, \beta_1, \beta_2, \gamma_1, \gamma_2 \in \{0,1\})$ , 满足 $(\alpha_1\oplus \alpha_2) \wedge ( \beta_1\oplus\beta_2)= \gamma_1\oplus \gamma_2$ 。给定三元组，双方计算 $d_i=\alpha_i \oplus u_i, e_i=\beta_i \oplus v_i$ , 交换 $d_i, e_i$ 并重构 $d=d_1\oplus d_2, e=e_1\oplus e_2$ , 在输出线分别计算 $w_1=(d\wedge e)\oplus(d\wedge\beta_1)\oplus(e\wedge\alpha_1)\oplus\gamma_1, w_2=(d\wedge\beta_2)\oplus(e\wedge\alpha_2)\oplus\gamma_2$ 。
乘法三元组可以用两轮的 1 bit 长的OT实现。在第一轮 OT中， $P_1$ 作为发送方， $P_2$ 作为接受方，选择比特为 $\alpha_2$ ；在第二轮 OT中， $P_2$ 作为发送方， $P_1$ 作为接受方，选择比特为 $\alpha_1$ 。每一轮OT中，发送方持有 $x_0^i, x_1^i)$ ，并设置 $\beta_i=x_0^i\oplus x_1^i$ , 接收方持有 $x_{\alpha_i}^i$ 。注意到： $(\alpha_1\oplus \alpha_2) \wedge ( \beta_1\oplus\beta_2)= (\alpha_1\wedge\beta_1)\oplus(\alpha_1\wedge\beta_2)\oplus(\alpha_2\wedge\beta_1)\oplus(\alpha_2\wedge\beta_2)=\gamma_1\oplus \gamma_2$ 。其中 $\alpha_i\wedge\beta_i$ 可以本地计算，而注意到 $\alpha_1\wedge\beta_2=x_{\alpha_1}^2\oplus x_0^2, \alpha_2\wedge\beta_1=x_{\alpha_2}^1\oplus x_0^1$ （可以通过真值表验证，具体怎么推导的我也不清楚）因此， $P_1$ 设置 $\gamma_1=(\alpha_1\wedge\beta_1)\oplus x_0^1\oplus x_{\alpha_1}^2$ , $P_2$ 设置 $\gamma_2=(\alpha_2\wedge\beta_2)\oplus x_0^2\oplus x_{\alpha_2}^1$ 。

优化

由于2/3的 $A N D$ 门都来源于选择器，在每一个选择器中，都有长为 $\sigma bit$ 的输入 $x, y$ 和一个选择比特 $s$ ，因此我们需要 $\sigma$ 个 $A N D 门$ 来计算 $z[j]=s\wedge(x[j]\oplus y[j])\oplus x[j], 1\leq j\leq \sigma$ , 因此我们计算的时候可以使用向量三元组的形式： $(\alpha_1, \alpha_2\in \{0,1\}； \beta_1, \beta_2, \gamma_1, \gamma_2 \in \{0,1\}^{\sigma})$ , 满足 $(\alpha_1\oplus \alpha_2) \wedge (\beta_1[j]\oplus\beta_2[j])= \gamma_1[j]\oplus \gamma_2[j]$ 。为了评估 $A N D$ 门，双方计算 $d_i=\alpha_i \oplus u_i, e_i[j]=\beta_i[j] \oplus v_i[j]$ , 交换 $d_i, e_i[j]$ 并重构 $d=d_1\oplus d_2, e[j]=e_1[j]\oplus e_2[j]$ , 在输出线计算 $w_i[j]=(d\wedge e[j])\oplus(d\wedge\beta_i[j])\oplus(e[j]\wedge\alpha_i)\oplus\gamma_i[j]$ 。向量三元组用随机的 $OT_{\sigma}^2$ 实现。

Garbled Bloom Filter-Based PSI

Bloom Filter

一个 BF 包括 n 个 elelments，一个 m 比特长的 F, 和 k 个独立的哈希函数 $h_1, ..., h_k, h_i: \{0,1\}^*\mapsto[1,m]$ 。初始化阶段， F 的所有比特都设为0。当一个 $x$ 要被插入 BF 中，那么对所有的 i 设置 $F[h_i(x)]=1$ 。如果要查询 BF 中是否含有 $y$ , 需要检查所有的 $F[h_i(y)]$ , 只有当所有 $BF[h_i(y)]$ 全不为0时， $y$ 才在 BF 中。

Garbled Bloom Filter

一个GBF包含 $\kappa$ 个哈希函数，在每一个位置 $G[i]，1\leq i \leq m$ 都有长为 $l$ 的shares, $x$ 在 G 中需要满足 $\bigoplus_{j=1}^{\kappa}G[h_j(x)]=x$ 。
为了用一个 GBF G 来表示一个数据集 X， G 的所有位置都被初始化为未占用，在插入每一个 $x\in X$ 时，都先找一个未占用的哈希 $G[h_t(x)]$ ，其他所有的未占用的位置 $G[h_j[x]]$ 都设置为随机的 $l$ 比特串，只有 $G[h_t(x)]$ 被设置为 $G[h_t(x)]=x\oplus (\bigoplus_{j=1, j\neq t}^{\kappa}G[h_j(x)])$ 。
在半诚实的PSI协议中， $P_1$ 产生一个 m 比特长的 GBF $G_X$ ， $P_2$ 产生一个 m 比特长的 BF $F_Y$ , $P_1, P_2$ 执行 $OT_l^m$ ，在第 i 轮 OT 中， $P_1$ 作为发送者输入 $0, G_X[i])$ , $P_2$ 作为接收者输入选择比特 $F_Y[i]$ , 并且获得交集 GBF $G_{(X\wedge Y)}$ , 若 $F_Y[i]=0$ ， $G_{(X\wedge Y)[i]=0}$ ，反之 $G_{(X\wedge Y)[i]=G_X[i]}$ 。 $P_2$ 要检查 $y$ 是否在交集中，只需要检查 $\bigoplus_{i=1}^kG_{(X\wedge Y)}[h_i(y)]$ 是否等于 $y$ 。

Random GBF-Based PSI

使用了随机OT扩展技术，在第 i 轮 OT 中， $S$ 无输入，输出 ( $x_0^i, x_1^i$ ), $R$ 输入选择比特 $b$ 并获得输出 $x_{b[i]}^i$ , 双方分别利用不经意伪随机函数生成器 (OPRG) 获得了 $b_1, b_2$ ，如果 $b_1=0$ ， $S$ 忽略它的输出 ( $x_0^i, x_1^i$ )；如果 $b_2=0$ ， $R$ 忽略它的输出 $x_{b[i]}^i$ 。

Bloom filter-based protocol

$P_1, P_2$ 分别产生一个 BF 得到 $F_X, F_Y$ , 并将其作为 OPRG 的输入，产生随机 GBFs $G_X, G_Y$ , 对于 $X$ 中的每一个 $x_j$ , $P_1$ 计算 $m_{P_1}[j]=\bigoplus_{i=1}^{\kappa}G_X[h_i(x_j)]$ , 最后 $P_1$ 将所有的 $m_{P_1}$ 按照随机顺序发送给 $P_2$ , $P_2$ 通过判断是否存在 j 使得 $m_{P_1}[j]=\bigoplus_{i=1}^{\kappa}G_Y[h_i(y)]$ 成立，来判断 $y$ 是否在交集中。

PEQT Protocol

Basic PEQT Protocol

在大部分判断隐私数据集是否相等（PEQT）的协议中, $P_1, P_2$ 都是通过一个 $\left ( \begin{array}{c} 2\\1 \end{array} \right )-OT_l^{\sigma}$ , $P_1$ 拥有 ( $s_0^i, s_1^i$ ), $P_2$ 用 $y$ 作为选择向量并获得 $s^i_{y[i]}$ , $P_1$ 计算 $m_{P_1}=\bigoplus_{i=1}^{\sigma}s_{x[i]}^i$ 并发送给 $P_2$ , $P_2$ 计算 $m_{P_2}=\bigoplus_{i=1}^{\sigma}s_{y[i]}^i$ 并比较，当且仅当 $m_{P_1}=m_{P_2}$ 时， $x = y$ 。

y =? x

优化时， $P_2$ 将 $\sigma bit$ 的 $y$ 切分成 $t$ 块： $y = y [1] ∣∣...∣∣ y [t]$ ，同样， $P_1$ 将 $x$ 也切分成 $t$ 块： $x = x [1] ∣∣...∣∣ x [t]$ , 使用 $\left ( \begin{array}{c} N\\1 \end{array} \right )-OT_l^{\sigma}$ ， $P_1$ 拥有 ( $s_0^i,..., s_{N-1}^i$ ), $P_2$ 拥有 $s^i_{y[i]}$ , $P_1$ 计算 $m_{P_1}=\bigoplus_{i=1}^ts_{x[i]}^i$ 并发送, $P_2$ 计算 $m_{P_2}=\bigoplus_{i=1}^ts_{y[i]}^i$ 并比较，当且仅当 $m_{P_1}=m_{P_2}$ 时， $x = y$ 。

y in? X

双方均运行 $\left ( \begin{array}{c} N\\1 \end{array} \right )-OT_{n_1l}^t$ , 在第 i 轮 OT 中， $P_1$ 拥有 N 个随机串 ( $s_0^i, ..., s_{N-1}^i$ ) $\in \{0,1\}^{n_1l}$ , $P_2$ 拥有一个随机串 $s_{y[i]}^i$ 。执行 PEQT 协议时， $P_1$ 计算 $m_{P_1}[j] = \bigoplus_{i=1}^t s_{x_j[i]}^i[j]$ 并发送这 $n_1l$ bit长的 $m_{P_1}$ 给 $P_2$ , $P_2$ 计算 $m_{P_2}=\bigoplus_{i=1}^ts_{y[i]}^i$ ，并检查是否存在 j 使得 $m_{P_1}[j]=m_{P_2}$ , 若存在则证明 X 中存在与 y 相等的元素。