【A survey on single server private information retrieval in a coding theory perspective】论文笔记(一)

大连米兰哥

已于 2022-05-18 09:46:50 修改

阅读量457

点赞数

分类专栏：安全计算

于 2022-05-05 20:13:20 首次发布

本文链接：https://blog.csdn.net/kaka__22/article/details/124585134

版权

服务器运维算法

安全计算专栏收录该内容

10 篇文章 6 订阅

订阅专栏

【A survey on single server private information retrieval in a coding theory perspective】论文笔记

此论文较长分为两篇完成
【A survey on single server private information retrieval in a coding theory perspective】论文笔记(一)
【A survey on single server private information retrieval in a coding theory perspective】论文笔记(二)

文章目录

【A survey on single server private information retrieval in a coding theory perspective】论文笔记
摘要
- - 线性码
  - 纠错码
1. 简介
2. 预备工作
3 基于编码的框架

摘要

在本文中，我们通过使用线性纠错码的概念，提出了单服务器私有信息检索（PIR）方案的一个新观点。许多已知的单服务器方案都是基于对数据库元素和查询元素的线性组合。利用线性码的理论，我们开发了一个通用框架，将所有这些PIR方案正式化。这个通用框架为分析此类PIR方案的安全性提供了一个适当的设置。事实上，我们在这个基于代码的框架中描述了一些已知的PIR方案，并从一个统一的角度提出了被破坏的PIR方案的弱点。。

线性码

定义下记号，记 $k$ bits信号为向量 $m = [ m_0 , ⋯ , m_{k − 1}]$ ，经过编码后变成 $n$ bits的码
$c = [ c_0 , ⋯ , c_{n − 1}]$ ，这里认为 $m, c$ 都是行向量，通常 $n \geq k$ 。如果存在矩阵 $G$
使得 $c=mG,G∈R^{k×n}$ 称这种码为线性码， $G$ 又被称为生成矩阵，记它的行向量为 $g_0 , ⋯ , g_{k−1}$ ，( $G$ 是一个矩阵， $g_0$ 是矩阵的第0行) $\sum^{k-1}_{j=0}m_jg_j$

也就是说线性码就是生成矩阵行向量的线性组合。字长为 $k$ bits的信号共有 $2^k$
种，因此生成矩阵行向量的线性组合需要有 $2^k$ 种。

纠错码

纠错码(error correcting code)，在传输过程中发生错误后能在收端自行发现或纠正的码。仅用来发现错误的码一般常称为检错码。为使一种码具有检错或纠错能力，须对原码字增加多余的码元，以扩大码字之间的差别，即把原码字按某种规则变成有一定剩余度（见信源编码）的码字，并使每个码字的码之间有一定的关系。关系的建立称为编码。码字到达收端后，可以根据编码规则是否满足以判定有无错误。当不能满足时，按一定规则确定错误所在位置并予以纠正。纠错并恢复原码字的过程称为译码。检错码与其他手段结合使用，可以纠错。

1. 简介

私有信息检索（PIR）最早是在[1]中提出的，以应对以下问题：从数据库中检索一个元素，而不向管理该数据库的不信任的来源透露任何关于该元素的信息。自引入以来，它吸引了许多研究人员，有几项工作已经解决了他们对它的关注。对于这个问题，已经提出了两种解决方案，即信息理论方案和计算方案。第一个解决方案旨在保证服务器没有得到用户想要检索的文件的信息。在[2-7]中提出了多个服务器的解决方案。在单一服务器的情况下，琐碎的解决方案，即下载整个数据库，是确保信息理论隐私的唯一可能性。然而，琐碎的解决方案并不令人满意，因为它带有非常大的通信成本，这基本上意味着它是不切实际的。相反，在计算型PIR中，假设服务器的计算能力有限，隐私就能得到保证。因此，计算型PIR（cPIR）是在单一服务器的情况下唯一实用的解决方案。
大多数早期的cPIR方案都是基于数论问题的难度，如整数分解（例如见[8-11]）。已知的（非微不足道的）单服务器cPIR构造需要对每个数据库元素进行一些加密操作，与信息论的方案相比，这些方案的计算成本增加。在[12]中，Sion和Carbu-nar表明，数字理论的PIR方案并不实用，计算PIR回复的效率总是低于发送整个数据库。此外，这种基于因式分解的方案，在量子计算机时代将是不安全的[13]。
最近一些PIR方案的构建使用了完全同态加密（Fully Homomorphic Encryption,FHE）方案。 Yi等人在[14]中提出了一种从FHE中构建PIR的通用方法。在这一构造之后，许多PIR协议被提出，使用基于格子问题（problems in lattices）和带错误学习（learning with error，LWE）概率问题的FHE方案[15-18]。最近，Aguilar-Melchor等人在[16]中提出了XPIR，这是一个使用基于Ring-LWE的FHE方案的PIR结构，计算效率高，但通信成本大。继[16]之后，Angel等人在[17]中能够显著改善其通信成本，与XPIR相比，只需稍稍增加一些计算量。与Angel等人的方案一样，Ali等人最近的工作[18]代表了PIR方案的最先进效率
最近，Holzbaur, Hollanti和Wachter-Zeh在[19]中提出了第一个基于编码理论的单服务器PIR。然而，他们的提议在[20]中受到攻击。 [19]中的主要想法是通过使用随机线性代码的码字隐藏精心选择的错误向量来生成查询。为了获得隐私，该线性代码由用户保持秘密。Aguilar-Melchor和Gaborit之前在一个基于格子的PIR方案中使用了同样的想法[21]，没有使用线性代码的概念。该方案后来被Liu和Bi[22]使用lat-tice还原算法进行攻击。
有趣的是，使用线性编码隐藏查询信息的想法可以直接或间接地在其他几个PIR方案中看到。在本文中，我们开发了一个统一的框架来描述所有这些PIR方案。特别是，这个框架描述了所有的单服务器PIR方案，这些方案通过使用线性组合收缩数据库元素和查询元素来生成回复。本文的主要目的是在一个统一的编码理论角度对现有的几个单服务器PIR方案进行调查。这使得人们对这些PIR方案的安全性有了更深刻的理论认识。
该框架基于两个关键要素：一个是隐藏查询信息的线性代码，一个是允许用户从线性纠缠的回复中检索到所需文件的检索函数。一方面，线性代码的概念描述了几个现有的PIR方案的共同特征，另一方面，检索功能描述了这些方案之间的关键差异。就该框架而言，PIR方案的隐私性在很大程度上依赖于检索函数。我们观察到，有几种检索函数的选择是不安全的，例如，有限域同构和向量空间同构。此外，我们还讨论了许多被破解的PIR方案在这个基于代码的框架方面的弱点。
本文的组织结构如下：在第2节中，我们介绍了将在本文中使用的符号，并给出了单服务器私有信息检索的背景，以及有限域和环上的线性编码。在第3节中，我们预设了一个编码系统。在第3节中，我们预先介绍了基于代码的框架，并从一般的角度讨论了安全性。在第4节中，我们提供了关于四种编码的调查。在第4节中，我们提供了一个关于四个不同的PIR方案的调查，在基于编码的框架中进行了描述。第一个方案是一个基本方案，使用有限域同态性作为检索函数。而其他三个则分别基于现有的PIR方案[19, 21]和[16]。后者是我们提出的方案中唯一一个仍未被打破的例子。对于前两者，我们也将描述现有的攻击与所提出的基于代码的框架。最后，在第5节中，我们对该框架的通用性以及单服务器PIR方案的安全性进行了一些理论上的评论。

2. 预备工作

在这一节中，我们将介绍我们在论文中使用的符号，并回顾一些关于单服务器PIR理论的背景。此外，我们还介绍了纠错线性码的基本概念

2.1 符号

在本文中，我们用 $R$ 表示一个环，用 $R \times$ 表示环中可逆元素的集合。此外，让 $q$ 是一个质数，那么我们用 $F q$ 表示大小为 $q$ 的有限域。

我们用粗体小写字母和粗体大写字母分别表示行向量和矩阵。当我们考虑列向量时，我们使用转置符号。大小为k的同一矩阵用 $𝐈_k$ 表示。给定一个长度为 $n$ 的向量 $x$ 和一个集合 $S⊂{1,...,n}$ ，我们用 $x$ 表示。我们用 $𝐱_S$ 表示 $x$ 在 $S$ 索引的坐标上的投影。同样， $𝐌_S$ 表示 $k \times n$ 矩阵 $M$ 在 $S$ 索引的列上的投影。

对于一个集合 $S$ ，我们用 $S^C$ 表示其补集。向量 $𝐱∈𝔽^n_q$ 的支持度用 $Supp(𝐱)={1≤i≤n∣x_i≠0}$ 表示。

矢量 $𝐱∈𝔽^n_q$ 的第 $i$ 个条目用 $x [i]$ 表示，对于 $i∈{1,...,n}$ 。

给定一个集合 $S$ 和 $S$ 上的分布𝜒， $x$ ← $\chi$ 代表S中的一个样本 $x$ 遵循分布 $\chi$ 。

环

环(Ring)是一类包含两种运算(加法和乘法)的代数系统，是现代代数学十分重要的一类研究对象。其发展可追溯到19世纪关于实数域的扩张及其分类的研究。

在非空集合R中，若定义了两种代数运算 $+$ 和 $\times$ （不一定为加与乘），且满足：

集合R在+运算下构成阿贝尔群(Abelian group)。
×运算在集合R下满足结合律，即 $\forall a, b, c \in R, (a \times b)\times c=a \times (b \times c)$ 。R对 $\times$ 构成一个半群。
对 $+$ 和 $\times$ 有分配律成立，即 $\forall a, b,c \in R$ ，有 $a\times(b+c) = a\times b + a\times c \\ (a+b)\times c = a\times c + b\times c$

称代数系统 $+,\times>$ 是一个环（Ring）。在不引起混淆的情况下，记为 $R$ .

详见百度百科–环：点击此处跳转

2.2 单个服务器的隐私信息检索

单服务器PIR是一个涉及两方的方案，即用户和服务器。服务器管理一个包含一些公共信息的数据库，而用户有兴趣检索数据库中的一些条目，但不透露被查询的项目。

2.2.1 基本描述

一个单服务器PIR方案的基本描述如下。让数据库用 $\left \{db_1,...,db_N \right \}$ 表示，包含 $N$ 个文件，并假设用户希望检索第 $i$ 个文件 $db_i$ 。用户首先构建一个查询 $\left \{q_1,...,q_N \right \}$ ，其中隐藏了关于索引 $i$ 的信息，并将其发送给服务器。服务器通过对每个 $j$ 在 $q_j$ 和 $db_j$ 之间进行某些操作来计算出一个响应，并将其返回给用户。如果用户能从响应中检索到所需的文件 $db_i$ ，则该方案被认为是正确的。

2.2.2 通信和计算成本

保护隐私的一个简单解决方案是下载整个数据库。然而，这种操作的通信成本，以用户和服务器交换的比特总数来衡量，在琐碎的情况下是太高了，即 $O (N)$ ，其中N是数据库的大小。现代PIR协议允许用户从数据库中检索数据，其通信复杂度远远小于 $O (N)$ 。一些常见的方法可以用来改善任何PIR方案的通信成本。在第3.2节中，我们讨论了这些技术。

单一服务器PIR方案的另一个重要方面是计算成本。由于数据库必须处理查询的每个条目，这些方案在计算上是昂贵的。

2.3 线性代码

2.3.1 在有限域上

让 $x$ 是 $𝔽^n_q$ 的一个向量。 $x$ 的Hamming weight用wt( $x$ )表示，它被定义为其非零项的数目，即它的支持度的大小。两个向量 $𝐱,𝐲∈𝔽^n_q$ 之间的Hamming distance被定义为两个向量不同的分量数，即 $d(𝐱,𝐲)=\left\{i∣x_i≠y_i\right\}$ 。
一个 $n,k]_q$ 的线性码 $C$ 是 $𝔽^n_q$ 的一个 $k$ 维子空间，被赋予汉明距离， $C$ 的元素被称为码字。
C的最小距离是一个量
$d:=min\left\{d(𝐱,𝐲)∣𝐱,𝐲∈C,𝐱≠𝐲\right\}$
当线性码 $C$ 的最小距离 $d$ 是已知的，那么 $C$ 就用 $n,k,d]_q$ 来表示。
一个矩阵 $𝐆∈𝔽^{k×n}_q$ ，其行构成C的基础，称为C的生成器矩阵。因此，我们可以将代码 $C$ 定义为 ${𝐯∈𝔽^n_q∣𝐯=𝐮𝐆⊤，𝐮∈𝔽^k_q}$ 。同样，我们可以将代码 $C$ 定义为矩阵 $𝐇∈𝔽^{(n-k)×n}_q$ 的内核，即 $C:=ker(𝐇)=\left\{𝐯∈𝔽nq∣𝐇𝐯⊤=𝟎\right\}$ 。这样的矩阵被称为代码C的奇偶校验矩阵。一个 $n,k,d]_q$ 码 $C$ 的信息集是一个大小为 $k$ 的 $I⊂\left\{1,...,n\right\}$ 的集合，使得 $C∣=∣C_I∣$ ，其中 $C_I$ 表示所有码字对 $I$ 所索引的条目的限制。

汉明距离

汉明距离是使用在数据传输差错控制编码里面的，汉明距离是一个概念，它表示两个（相同长度）字符串对应位置的不同字符的数量，我们以 $d (x, y)$ 表示两个字 $x, y$ 之间的汉明距离,设 $x, y$ 的长度为 $N$ 。对两个字符串进行异或运算，并统计结果为1的个数，那么这个数就是汉明距离。
$\sum^{N-1}_{i=0}(x_i\oplus y_i)$

汉明权重

汉明重量是一串符号中非零符号的个数。因此它等同于同样长度的全零符号串的汉明距离。在最为常见的数据位符号串中，它是1的个数。

2.3.2 Over Rings

让 $R$ 是一个具有同一性的换元环。 $R$ 上长度为 $n$ 的线性码 $C$ 是空间 $R_n$ 中的一个 $R$ 模。如果 $𝐜=(c_1,...,c_n)∈C$ 意味着 $c_n,c_1,...,c_{n-1})∈C$ ，则 $R$ 上长度为 $n$ 的线性码 $C$ 被称为循环的。等价地， $C$ 是环 $R[x]∕(x^n-1)$ 的一个理想。
如果 $C$ 是环 $R[x]∕(x^n+1)$ 的一个理想，那么 $R$ 上长度为 $n$ 的线性码 $C$ 被称为负环。

3 基于编码的框架

在本节中，我们通过使用纠错码的概念，提出了一个单服务器PIR方案的通用框架。为了简单起见，我们用一个简单的数据库设置来介绍这个框架，随后我们将讨论不同类型的数据库设置，以提高通信的复杂性。

3.1基于编码的框架

在详细描述该框架之前，我们先强调框架中使用的一些元素。

我们用一个检索函数 $f ∶ R \to R$ 和 $R$ 的三个子集 $X 、 Y 、 Z$ 来描述有限换元环 $R$ 上的通用框架。
数据库文件属于 $X$ 集。
为了产生查询，我们在R上固定一个随机选择的线性编码 $C$ 。查询的每个元素都是 $C$ 中随机选择的码字与 $R$ 上的错误向量之和。
为了生成对应于非期望文件的错误向量，我们使用 $Y$ 集，而对于期望文件，我们使用 $Z$ 集。

设置：
我们定义一个检索函数 $f ∶ R \to R$ ，以及满足的子集 $X, Y, Z \subseteq R$ 。

f是一个非零映射。
$Y⊆ker(f):=\left\{x∈R:f(x)=0\right\}$ 这样， $Y$ 中任何元素与 $X$ 中标量的线性组合都属于 $k e r (f)$ ，即当 $x_1,...,x_j∈X和y_1,...,y_j∈Y$ 时， $x_1y_1+x_2y_2+⋯+x_jy_j∈ker(f)$ 。
$Z⊆f^{-1}(R^×)$ ，使 $f (y + x z) = x f (z)$ 对所有 $y \in k e r (f), x \in X$ 和 $z \in Z$ 。

$k e r (f)$

假设线性映射 $f ： W - - - > V, W$ 空间映到 $V$ 空间
$k e r (f)$ 相当于f的零空间，也就是V中0点对应的原象，这个原象不唯一，是个集合，就是 $k e r (f)$
数学语言 $ker(f)=\left\{w\in W | f(w)=0\right\}$

请注意， $f$ 不需要是环同构，它可以是任何一种从 $R$ 到 $R$ 的满足上述三个条件的函数。
让 $𝐌=(m_i)∈X^N$ 代表数据库，即数据库中有 $N$ 个文件。假设用户想从数据库中检索第 $b$ 个文件。
设 $C$ 是一个长度为 $n$ 的 $R$ 上的随机线性码，即 $C$ 是 $R^n$ 的一个 $R$ 子模。
查询的生成
让 $𝐠_1,...,𝐠_m$ 是作为 $R$ 模的 $C$ 的生成子，让 $Enc∶R^m→R^n$ 是 $C$ 的编码映射。注意， $E n c$ 是一个 $R$ -线性映射，由 $a_1,...,a_m)↦a_1𝐠_1+⋯+a_m𝐠_m$ 给出。
让 $𝐚_1,𝐚_2,...,𝐚_N$ 是 $R_m$ 中随机选择的元素，并定义 $𝐜_i=Enc(𝐚_i)$ ，所有 $i∈{1,...,N}$ 。
现在，让 $v$ 是 $\left\{1,...,n\right\}$ 中随机选择的固定元素，我们在 $R^n$ 中随机选择误差向量 $𝐞_1,𝐞_2,...,𝐞_N$ ，使它们满足以下条件，允许提取回复。
$𝐞_b[v]∈Z \quad and \quad 𝐞_i[v]∈Y \quad for \quad all \quad i≠b$
让 $𝐪_i∶=(𝐚_i,𝐜_i+𝐞_i)$ 为所有 $i∈\left\{1,...,N\right\}$ 。然后，查询的结果是
$Q∶=\left\{𝐪_1,𝐪_2,...,𝐪_N\right\}.$
回复的生成：响应是通过计算产生的
$𝐫=\sum^N_{i=1}m_i𝐪_i = \sum^N_{i=1}(m_i𝐚_i, m_i(𝐜_i+𝐞_i)) =:(𝐫_1,𝐫_2)$
回复提取：首先，我们通过在 $𝐫_1$ 上应用编码图进行解码，得到:
$𝐫_2−Enc(𝐫_1)= \sum^N_{i=1}m_i𝐞_i$
之后，我们可以在第 $v$ 个坐标上使用检索函数 $f$ ,
$f(\sum^N_{i=1}m_i𝐞_i[v]) = f(\sum_{i \neq b}m_i𝐞_i[v]) + f(m_b𝐞_b[v]) \\ = m_bf(𝐞_b[v])$
上述等式是由检索函数的条件得出的。现在，由于我们知道 $f(𝐞_b[v])$ ，并且我们有 $f(𝐞_b[v])∈f(Z)⊆R^×$ ，我们可以检索到想要的文件 $m_b$ 。

3.2 通信的复杂性和不同的数据库设置

就基于编码的框架的基本描述而言，通信成本超过了整个数据库的大小。事实上，对于每个作为 $R$ 中元素的文件，我们要发送一个 $R_{n+m}$ 中的查询元素。因此，总的通信成本是 $R_{m+n}$ 中一个元素大小的 $(N + 1)$ 倍。我们可以通过使用矩阵数据库设置[1]或迭代响应技术来改善通信复杂性。

数据库的矩阵设置：为了减少通信的复杂性，可以把数据库看成一个 $s \times t$ 矩阵，矩阵的每个元素都是一个数据库文件。现在，用户产生一个查询 $Q=\left\{𝐪_1,...,𝐪_t\right\}$ ，包含 $t$ 个元素。对于每个查询，服务器通过发回响应 $R=\left\{𝐫_1,...,𝐫_s\right\}$ 进行回复。其中包含对应于数据库矩阵的 $s$ 行的 $s$ 个响应。这种技术是在[1]中介绍的。使用这种方法并假设 $s=t=\sqrt{N}$ ，通信复杂性是 $R_{m+n}$ 中一个元素大小的 $2\sqrt{N}$ 倍。
迭代回复生成：在这种技术中，人们将每个文件分成L个部分，并重复查询以检索文件的每个部分。由于查询的产生是为了只检索所需文件的小部分，环境空间的大小也相应减少。因此，相对于数据库的大小，查询的大小减少了L的系数，而响应的大小也增加了相同的系数。

3.3 安全问题

单一服务器计算式PIR方案的安全性是基于通过查看查询来识别所需文件的索引的难度。关于基于代码的框架，我们可以用下面的可区分性问题来描述安全性。
问题1(可区分性问题) 考虑基于代码框架的设置和查询生成过程的符号。给出查询向量 $𝐪_1,𝐪_2,...,𝐪_N$ ，确定所需文件的索引 $b$ 。
解决可区分性问题的难度在很大程度上取决于检索函数 $f$ 的选择。在下文中，我们提出了两种可用于解决该问题的通用策略。然而，这些策略的计算成本直接依赖于检索函数和误差向量 $𝐞_1,...,𝐞_N$ 的选择。

考虑以下由查询向量组成的矩阵
$\begin{pmatrix}𝐪_1 \\ 𝐪_2 \\ ... \\𝐪_N \end{pmatrix} = \begin{pmatrix}𝐚_1 & 𝐜_1+𝐞_1\\ 𝐚_2 & 𝐜_2+𝐞_2 \\ ... \\𝐚_N & 𝐜_N+𝐞_N \end{pmatrix}∈R^{N×(m+n)}$
请注意，所有 $j∈\left\{1,...,n\right\}$ 的向量 $𝐞_1[j],𝐞_2[j],...,𝐞_N[j])$ 都属于 $A$ 的列跨度。我们回顾一下，误差向量的第 $v$ 个坐标是以特殊方式选择的，即 $𝐞_b[v]∈Z⊆f^{-1}(R^×)$ 和 $𝐞_i[v]∈Y⊆ker(f)$ 对所有 $i \neq = b$ 。因此，我们可以通过寻找 $𝐞_1[v],𝐞_2[v],...,𝐞_N[v])$ 在 $A$ 的列跨度中的向量来解决问题1。
让 $A$ 作为上面定义的查询矩阵。对于每个 $i∈\left\{1,...,N\right\}$ ，让 $𝐀_i$ 是通过删除第i行得到的 $A$ 的子矩阵。显然，根据构造，对于任何 $i \neq = b$ 的情况， $𝐀_b$ 与 $𝐀_i$ 相比具有不同的性质。因此，如果存在一个（代数的或非代数的）不变式，可以在任何 $i \neq = b$ 的情况下将 $𝐀_b$ 与 $𝐀_i$ 区分开来，那么问题1可以通过计算每个 $𝐀_1,...,𝐀_N$ 的这个不变式来解决。