大数据隐私保护技术综述-大数据-2016

一、引言


如何在不泄露用户隐私的前提下,提高大数据的利用率,挖掘大数据的价值,是目前大数据研究领域的关键问题。具体而言,实施大数据环境下的隐私保护,需要在大数据产生的整个生命周期中考虑两个方面:如何从大数据中分析挖掘出更多 的价值;如何保证在大数据的分析使用过程中,用户的隐私不被泄露。本论文将围绕下图所示的大数据隐私保护生命周期模型展开。



二、大数据生命周期的隐私保护模型


2.1 数据发布


与传统针对隐私保护进行的数据发布手段相比,大数据发布面临的风险是大数据的发布是动态的,且针对同一用户的数据来源众多,总量巨大。需要解决的问题是如果在数据发布时,保证用户数据可用的情况下,高效、可靠地去掉可能泄露用户隐私的内容。传统针对数据的匿名发布技术,包括k-匿名、l-diversity匿名、t-closeness匿名、个性化匿名、m-invariance匿名、基于“角色构成”的匿名方法等,可以实现对发布数据时的匿名保护。在大数据环境下,需要对这些数据进行改进和发展。


2.2 数据存储


在大数据时代,数据存储方一般为云存储平台,大数据的存储者和拥有者是分离的,云存储服务商并不能保证是完全可信的。用户的数据面临着被不可信的第三方偷窃数据或者篡改数据的风险。加密方法是解决该问题的传统思路,但是,由于大数据的查询、统计、分析和计算等操作也需要在云端进行,为传统加密技术带来了新的挑战。同态加密技术、混合加密技术、基于BLS短签名POR模型、DPDP、Knox等方法,是针对数据存储时防止隐私泄露而采取的一些方法。


2.3 数据挖掘


在大数据环境下,由于数据存在来源多样性和动态性等特点,在经过匿名等处理后的数据,经过大数据关联分析、聚类、分类等数据挖掘方法后,依然可以分析出用户的隐私。针对数据挖掘的隐私保护技术,就是在尽可能提高大数据可用性的前提下,研究更加合适的数据隐藏技术,以防范利用数据发掘方法引发的隐私泄露。现在的主要技术包括:基于数据失真和加密的方法,比如数据变量、隐藏、随机扰动、平移、翻转等技术。


2.4 数据使用


在大数据的环境下,如何确保合适的数据及属性能够在合适的时间和地点,给合适的用户访问和利用,是大数据访问和使用阶段面临的主要风险。为了解决大数据访问和使用时的隐私泄露问题,现在的技术主要包括:时空融合的角色访问控制、基于属性集加密访问控制、基于密文策略属性集的加密、基于层次式属性集的访问控制等技术。


以下分别针对大数据生命周期中的发布、存储、挖掘和使用4个过程中的隐私保护技术进行阐述。


3 大数据发布隐私保护技术


匿名技术:数据持有方在公开发布数据时,这些数据通常会包含一定的用户信息,服务方在数据发布之前需要对数据进行处理使用户隐私免遭泄露。一般的,用户更希望攻击者无法从数据中识别出自身,更不用说窃取自身的隐私信息。


数据发布匿名:在确保所发布的信息数据公开可用的前提下,隐藏公开数据记录与特定个人之间的对应联系,从而保护个人隐私。实践表明,仅删除数据表中有关用户身份的属性作为匿名实现方案是无法达到预期效果的。现有的方案是静态匿名技术(以信息损失为代价,不利于数据挖掘与分析)、个性化匿名、带权重的匿名等。后两类给予每条数据记录以不同程度的匿名保护,减少了非必要的信息损失。


3.1 大数据中的静态匿名技术


在静态匿名策略中,数据发布方需要对数据中的准标识码进行处理,使得多条记录具有相同的准标识码组合,这些具有相同准标识码组合的记录集合被称为等价组。


k-匿名技术就是每个等价组中的记录个数为k个,即针对大数据的攻击者在进行链接攻击时,对于任意一条记录的攻击同时会关联到等价组中的其他k-1条记录。这种特性使得攻击者无法确定与特定用户相关的记录,从而保护了用户的隐私。


l-diversity匿名策略是保证每一个等价类的敏感属性至少有l个不同的值,l-diversity使得攻击者最多以1/l的概率确认某个个体的敏感信息。


t-closeness匿名策略以EMD衡量敏感属性值之间的距离,并要求等价组内敏感属性值的分布特性与整个数据集中敏感属性值的分布特性之间的差异尽可能大。在l-diversity基础上,考虑了敏感属性的分布问题,要求所有等价类中敏感属性值的分布尽量接近该属性的全局分布。


这些策略会造成较大的信息损失,有可能使得数据的使用方做出误判。


3.2 大数据中的动态匿名技术


针对大数据的持续更新特性,有的学者提出了基于动态数据集的匿名策略,这些匿名策略不但可以保证每一次发布的数据才能满足某种匿名标准,攻击都也将无法联合历史数据进行分析和推理。这些技术包括支持新增的数据重发布匿名技术、m-invariance匿名技术、基于角色构成的匿名等支持数据动态更新匿名保护的策略。


支持新增的数据重发布匿名策略:使得数据集即使因为新增数据而发生改变,但多次发布后不同版本的公开数据仍然能满足l-diversity准则,以保证用户的隐私。数据发布者需要集中管理不同发布版本中的等价类,若新增的数据集与先前版本的等价类无交集并能满足l-diversity准则,则可以作为新版本发布数据中的新等价类出现,否则需要等待。若一个等价类过大,则要进行划分。


m-invariance匿名策略:在支持新增操作的同时,支持数据重发布对历史数据集的删除。


3.3 大数据中的匿名并行化处理


大数据的巨规模特性使得匿名技术的效率变得至关重要。大数据环境下的数据匿名技术也是大数据环境下的数据处理技术之一,通用的大数据处理技术也能应用于数据匿名发布这一特定目的。分布式多线程是主流的解决思路,一类实现方案是利用特定的分布式计算框架实施通常的匿名策略,另一类实现方案是将匿名算法并行化,使用多纯种技术加速匿名算法的计算效率,从而节省了大数据中的匿名并行化处理的计算时间。


使用已有的大数据处理工具与修改匿名算法实现方式是大数据环境下数据匿名技术的主要趋势,这些技术能极大地提高数据匿名处理效率。


4 大数据存储隐私保护技术


4.1 大数据加密存储技术


传统的DES、AES等对称加密手段,虽能保证对存储的大数据隐私信息的加解密速度,但其密钥管理过程较为复杂,难以适用于有着大量用户的大数据存储系统。传统的RSA、Elgamal等非对称加密手段,虽然密钥易于管理,但算法计算量太大,不适用于对不断增长的大数据隐私信息进行加解密。数据加密加重了用户和去平台的计算开销,同时限制了数据的使用和共享,造成了高价值数据的浪费。


同态加密算法可以允许人们对密文进行特定的运算,而其运算结果解密后与用明文进行相同运算所得的结果一致。全同态加密算法则能实现对明文所进行的任何运算,都可以转化为对相应密文进行恰当运算后的解密结果。将同态加密算法用于大数据隐私存储保护,可以有效避免存储的加密数据在进行分布式处理时的加解密过程。


4.2 大数据审计技术


当用户将数据存储在云服务器中时,就丧失了对数据的控制权。为了防止数据在用户不知情的情况下被修改,可以采用云存储中的审计技术。云存储审计指的是数据拥有者或第三方机构对云中的数据完整性进行审计。通过对数据进行审计,确保数据不会被云服务提供商篡改、丢弃,并且在审计的过程中用户的隐私不会被泄露。


可证明的数据持有模型(PDP):该模型可以对服务器上的数据进行完整性验证,该模型中挑战应答协议传输的数据量非常少,因此所耗费的网络带宽较小。


可恢复证明模型(POR):利用纠错码技术和消息认证机制来保证远程数据文件的完整性和可恢复性。该模型面临的挑战在于需要构建一个高效和安全的系统来应对用户的请求。


未来的研究热点:一是云中数据量越来越大,数据种类越来越丰富,如何提供更加高效、安全的审计服务?二是随着人们在线上的交互越来越频繁,云中数据动态操作可能更加频繁,如何应对如此频繁的数据动态操作?


5 大数据挖掘隐私保护技术


隐私保护数据挖掘,即在保护隐私前提下的数据挖掘,主要的关注点有两个:一是对原始数据集进行必要的修改,使得数据接收者不能侵犯他人隐私;二是保护产生模式,限制对大数据中敏感知识的挖掘。


5.1 关联规则的隐私保护


这种保护有两类方法:


(1)变换:修改支持敏感规则的数据,使得规则的支持度和置信度小于一定的阈值而实现规则的隐藏。


(2)隐藏:不修改数据,对生成敏感规则的频繁项集进行隐藏。


5.2 分类结果的隐私保护


分类方法的结果通常可以发现数据集中的隐私敏感信息,因此需要对敏感的分类结果信息进行保护。这类方法的目标是在降低敏感信息分类准确度的同时,不影响其他应用的性能。


5.3 聚类结果的隐私保护


一个较好的方案是:先对原始数据进行几何变换,以对敏感信息进行隐藏,然后是聚类过程,经过几何变换后的数据可以直接应用传统的聚类算法进行聚类。


6 大数据访问控制技术


大数据访问控制技术主要用于决定哪些用户可以以何种权限访问哪些大数据资源,从而确保合适的数据及合适的属性在合适的时间和地点,给合适的用户访问,其主要目标是解决大数据使用过程中的隐私保护问题。大数据给传统访问控制技术带来的挑战如下:


(1)大数据的时空特性,大数据下的访问控制模型需要在传统访问控制的基础上,充分考虑用户的时间信息和位置信息。


(2)在大数据时代的开放式环境下,用户来自于多种组织、机构或部门,单个用户又通常具有多种数据访问需求,应如何设定角色并为每个用户动态分配角色?


(3)大数据面向的应用需求众多,不同的应用需要不同的访问控制策略。


6.1 基于角色的访问控制技术


不同角色的访问控制权限不尽相同。通过为用户分配角色,可实现对数据的访问权限控制,因此,角色挖掘是前提。


6.2 基于属性的访问控制


通过将各类属性,包括用户属性、资源属性、环境属性等组合起来用于用户访问权限的设定。


7 结束语


如何在不泄露用户隐私的前提下,提高大数据的利用率,挖掘大数据的价值,是目前大数据研究领域的关键问题。

  • 14
    点赞
  • 94
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值