文章
He D, Furlotte N A, Hormozdiari F, et al. Identifying genetic relatives without compromising privacy[J]. Genome research, 2014, 24(4): 664-672.
cited:42
期刊
Genome research
影响因子
9.043/Q1
发文单位
美国加州大学洛杉矶分校
摘要
高通量基因组技术的发展对遗传研究的许多领域产生了影响。虽然这些技术的许多应用侧重于从群体样本中发现与疾病相关的基因,但基因组技术应用于个体基因组或个人基因组最近获得了很大的兴趣。其中一个应用就是从遗传数据中鉴定亲属。在这个应用程序中,一组个体的遗传信息被收集到一个数据库中,并对每一对个体进行比较,以确定基因亲属。在确定亲属身份时出现的一个固有问题是隐私。在这篇文章中,我们提出了一种在不损害隐私的情况下识别遗传亲属的方法,它利用了一种新颖的密码技术,为遗传信息的安全和隐私比较定制。我们通过允许一对个体在不泄露其基因信息或向第三方泄露其基因信息的情况下发现他们是否有血缘关系来展示这些技术的效用。其理念是,个人之间只共享足够多的特殊用途的加密保护信息,以确定他们是否为亲属,但不足以暴露任何关于他们的基因组的信息。我们在HapMap和1000个基因组数据中展示了我们的方法可以恢复一阶和二阶遗传关系,并通过模拟表明,我们的方法可以在保护隐私的同时识别远亲关系。
技术方法
利用了一种称为“模糊”加密的新技术,围绕“安全基因组草图”(SGS)的概念,其他个体可以通过使用来自自己基因组的信息来尝试解密SGS来检测他们是否与该个体相关。如果两个人有亲缘关系,他们的基因组会足够接近,因此解密尝试将允许他们识别他们有亲缘关系。需要的基因组相似性阈值是在加密时指定的,并调整到该方案可以识别的亲属级别。
1.分段匹配
将每个个体的基因组划分成片段,每个片段由固定数量的单核苷酸多态性(SNPs)组成。对每个个体的基因型进行分期,以获得每个片段的单倍型。通过计算其中一个单倍型精确匹配的片段数量来近似计算两个个体的亲缘关系,并将这个数量称为一对个体之间的“片段”匹配数量。
2.GS构造
- 将单倍体转为二进制(这一步不太清楚怎么做的):haplotypes->binary encoding
- 将6位二进制值加上段号,对8取余,即为GS
3.将GS转换为向量
2的三次方为8,向量长度为8,每一位代表该元素是否在GS集中出现过
4.构建加密SGS
加密方案与ECC纠错码相关,如图,将自己的二进制序列与随机选中码值相加,得到SGS
5.利用SGS匹配
获取到加密SGS,将他人的SGS-本人的GS,得到的结果与ECC矩阵匹配,最接近的串有多少,距离在阈值内,即有亲缘关系。
主要结果
数据集 HapMap群体 1000基因组群体
结果 可以检测到远亲关系,同时保护隐私
1. HapMap
- CEU(165个体,96对相关,13434对不相关)
- YRI(167个体,104对相关,13757对不相关)
过滤了小于5%的次要等位基因频率的SNPs和任何超过三个等位基因的SNPs。就产生1,387,466个SNPs,这些SNPs被划分为4625个包含300个SNPs的片段。
2. 1000基因组数据
- ASW(61个体,2个二阶关系,3个兄弟关系)
- LWK(97个体,5个二阶,6个兄弟关系,4个亲子关系)
筛选了小等位基因频率<5%的snp和任何超过两个等位基因的标记后,我们将1000个基因组数据分成300个snp片段,得到29,004个片段。
下图中,A和B显示了HapMap样本中相关个体和不相关个体配对数量的直方图。450的门槛将有关系的个体与无关系的个体区分开来。我们注意到,近亲之间共享的IBD区域通常比我们的节段更长,可能跨越几个相邻的节段。
图5C显示了成对的相关个体和非相关个体之间片段重叠的数量。为了使图更清晰,只绘制了20个不相关的个体的直方图。我们注意到有血缘关系的人和没有血缘关系的人之间有很大的差异。我们注意到,许多不相关的个体共享许多片段,这是意料之中的,因为在1000个基因组数据中,由于snp总数的差异,对应300个snp的基因组区域比HapMap数据要短得多。我们使用3000的阈值来区分有血缘关系和无血缘关系的个体。
图6 A和B表明,哈希冲突对相关个体和非相关个体之间的相对距离影响非常小。对于大多数对,在HapMap数据中,GS的重叠数与segment的重叠数之差小于10。这比相关个体和非相关个体之间的差异要小得多(图5A,B)。
与HapMap数据相似,相对于相关个体和非相关个体的差异,草图重叠数和片段重叠数的差异非常小。从图5C可以看出,对于大多数对来说,GS重叠的数量与segment重叠的数量之差小于250。
使用1000个基因组数据作为起点生成模拟数据,以确定在哪个点上有关联的个体与无关联的个体之间有多少段重叠。模拟研究结果如图7所示。可以看出,该方法适用于表亲,因为1500的阈值将他们从不相关的个体中分离出来。我们还生成了四堂表亲的成对个体,并观察到其中一些与不相关的个体(数据未显示)具有相同的共享水平,这意味着三堂表亲是该编码方案的限制。