大数据安全与隐私保护
期末复习-湖南科技大学,摸石头过河整理,东拼西凑版,还请轻喷。
题型
- 简答题 5 个 50分
- 论述题 1 个 30分
- 综合题 1 个 20分
第一章 绪论
-
大数据概述
什么是大数据? 大数据的特点?来源与应用?发展历程?
-
大数据隐私防护
大数据安全的挑战
- 在满足可用性的前提下保护大数据机密性
- 通过访问控制实现大数据的安全共享
- 实现大数据的真实性验证和可信溯源
大数据安全与大数据隐私保护的区别
- 隐私安全一般仅聚焦于匿名性,而大数据安全则关注广泛,其保护目标包括数据机密性、数据完整性、真实性、不可否认性和平台安全,数据权判定等。
-
大数据生命周期安全性分析
数据采集阶段
- 本地差分隐私等方法,保护从用户或传感器上收集到的数据。
数据传输阶段
- SSL通信加密协议,VPN技术或专用加密机,保障数据传输过程安全。
数据分析与使用阶段
- 实现数据挖掘过程中的用户隐私保护,降低多源异构数据集成中的隐私泄露。
第二章 安全存储与访问控制
-
基本概念
(1)主体:能够发起对资源的访问请求的主动实体,通常为系统的用户或进程.
(2)客体:能够被操作的被动实体,通常是各类系统和数据资源。
(3) 操作:主体对客体的读、写等动作或行为。
(4)访问权限:客体以及对客体的操作形成的二元组≤操作,客体>。
(5)访问控制策略:对系统中主体访问客体的约束需求的描述。
(6)访问(引用)授权:访问控制系统按照访问控制策略进行访问权限的赋予。
(7) 引用监控机(Reference Monitor,RM):系统中监控主体和客体之间授权访问的部件。它的模型如图2-1所示。
(8)引用验证机制(Reference Validation Mechanism,RVM):RM的软硬件实现。引用验证机制是真实系统中访问控制能够被可信实施的基础。它必须满足如下3个属性:
1.)具有自我保护能力。
2.)总是处于活跃状态。
3.)必须设计得足够小,以便于分析和测试。
其中,属性①确保了RVM的安全性,即能够抵抗攻击;属性②确保了所有访问行为都受到监控,即访问受控资源时,RVM机制不能被绕过;属性③则确保了RVM实现的正确性是易于验证的。由上述属性可知,在数据所有者自己负责数据存储的系统中,是能够建立RVM并验证其满足这3个属性的。而在由第三方提供存储服务的系统中,则难以构建RVM,而且难以对RVM的这3条属性进行验证。
-
访问控制模型
在计算机系统中,认证、访问控制(Access Control)和审计共同建立了保护系统安全的基础。认证是用户进入系统的第一道防线,访问控制是在鉴别用户的合法身份后,控制用户对数据信息的访问,它是通过引用监控器实施这种访问控制的。
访问控制是在身份认证的基础上,根据身份对提出的资源访问请求加以控制,是针对越权使用资源的现象进行防御的措施。访问控制是网络安全防范和保护的主要策略,它可以限制对关键资源的访问,防止非法用户或合法用户的不慎操作所造成的破坏。
目的:为了限制访问主体(用户、进程、服务等)对访问客体(文件、系统等)的访问权限,从而使计算机系统在合法范围内使用;决定用户能做什么,也决定代表一定用户利益的程序能做什么。
-
角色挖掘技术
角色挖掘(role mining)是通过分析用户到资源映象数据来确定或修改企业内基于角色的访问控制(RBAC)的用户许可过程。在某一商业环境中,角色是根据工作能力、职权及责任确定的。角色挖掘的最终目的是根据个体在某一组织内所担当的角色或发挥的作用来实现最佳安全管理。
角色挖掘可通过自下而上(bottom-up)、自上而下(top-down)和依照示例(by-example)三种途径加以实施。自下而上的角色挖掘中,使用者被按照各自技能或职责给予原已经存在的角色;自上而下的角色挖掘中制订了各类角色,用以匹配个体使用者的技能或职责;依照示例的角色挖掘中,角色用以匹配由经营管理者确定的使用者技能和职责。
有效的角色挖掘的优点包括:
-
为用户权限提供角色最优分配
-
鉴别在正常模式外进行操作的用户
-
检测并删除冗余或过量的角色或用户权限
-
使角色定义及用户权限保持最新
-
消除潜在安全漏洞、降低随之发生的各类风险
角色挖掘起源于基于角色的访问控制,能够辅助管理员发现系统中的潜在角色,从而简化管理员的权限管理工作。其中,基于机器学习的角色挖掘技术可用性更强,角色可合理解释,而且策略反映权限实际使用情况。生成角色模型用途广泛,既可用于策略中错误的发现和标识,也可用于权限使用过程中的异常检测。
-
-
风险自适应访问控制技术
针对大数据场景中安全管理员缺乏足够的专业知识,无法准确地为用户分配数据访问权限的问题,人们提出了风险自适应访问控制技术,将风险量化并为使用者分配访问配额。评估并积累用户访问资源的安全风险,当用户访问的资源的风险数值高于某个预定的门限时,限制用户继续访问。通过合理定义与量化风险,提供动态、自适应的访问控制服务。 -
基于密钥管理的访问控制技术
参与方包括:
- 数据所有者:拥有数据和完整的用户密钥树,负责根据数据分享的目标对象,有选择地从用户密钥树中选取加密密钥对数据进行加密,并将加密结果广播式发送给所有用户。
- 普通用户:拥有用户密钥树中的与自己相关的部分密钥,负责接收数据密文并利用自己持有的密钥解密数据。
基于公钥广播加密的访问控制
-
公钥服务器:负责维护一个密钥集合。即将系统中的所有用户划分为子集,每个子集代表了可能的数据接收者集合。为每个子集产生公私钥对,并将私钥安全分发给其包含的用户。
-
数据所有者:负责将数据加密,并采用基于公钥广播加密技术对加密密钥进行分发,以实现对授权接收者的限定。
-
数据服务者:负责加密数据的存储,并向用户提供对数据的操作。
-
用户:是数据的访问者。只有被数据所有者授权的用户才能获得数据的加密密钥,并进一步解密出数据。
由于采用公钥加密方式,所以系统的所有用户都可以是数据所有者,并向其他用户分享数据,消除了单发送者广播加密方案对发送者范围的限制。
-
基于属性加密的访问控制技术
- 在基于密钥管理的访问控制中,系统通过控制用户持有的密钥集合来区分用户,进而实施授权和访问控制。
- 基于属性加密的访问控制是通过更加灵活的属性管理来实现访问控制,即将属性集合作为公钥进行数据加密,要求只有满足该属性集合的用户才能解密数据。
第三章 安全检索技术
近年来,安全检索技术聚焦于探索密文检索技术,以实现在密文数据上的直接检索操作。密文检索技术可被分成对称密文检索和非对称密文检索。对称密文检索技术中只有数据拥有者拥有密钥,并提交敏感数据,故而数据拥有者就是数据检索者,这使得该技术更适用于单用户的情形,具有安全性高、加密、搜索运算效率高的特点。具体的实例有基于全文扫描的方法、基于文档-关键词索引的方法、基于关键词-文档索引的方法等。而非对称密文检索主要采取非对称密文关键词检索(public key encryption with keyword search,PEKS)方案,任何可以获得数据检索者公钥的用户都可以提交敏感数据,但是只有拥有数据检索者私钥的用户才可以生成陷门,因此更适用于多用户的情形,算法功能强,但与哈希函数和分组密码运算相比,效率较低。经典实例有BDOPPEKS方案、KR-PEKS方案、DSPEKS方案等。在教育应用方面,该技术主要用于教育信息系统文件安全保障。
-
对称密文检索
在对称密文检索方案中,数据所有者和数据检索者为同一方。场景适用于大部分第三方存储。也是近几年本领域的研究热点。个典型的对称密文检索方案包括如下算法。
(1) Setup算法。该算法由数据所有者执行,生成用于加密数据和索引的密钥。
(2) BuildIndex算法。该算法由数据所有者执行,根据数据内容建立索引,并将加密后的索引和数据本身上传到服务器。
(3 ) GenTrapdoor算法。该算法由数据所有者执行,根据检索条件生成相应的陷门(又称搜索凭证),然后将其发送给服务器。
(4) Search算法。该算法由服务器执行,将接收到的陷门和本地存储的密文索引作为输入﹐并进行协议所预设的计算,最后输出满足条件的密文结果。
对称密文检索的核心与基础部分是单关键词检索。目前,SSE可根据检索机制的不同大致分为三大类:基于全文扫描的方法,基于文档-关键词索引的方法以及基于关键词-文档索引的方法。
在单关键词SSE的基础上,人们更为深人地研究了多关键词检索。本节首先介绍3类SSE方案,然后介绍其在多关键词检索﹑模糊检索、Top-k检索﹑前向安全检索等领域的进展,最后对上述方法进行总结。
- 基于全文扫描的方案
- 基于文档-关键词索引的方案
- 基于关键词-文档索引的方案
-
非对称密文检索
非对称密文检索是指数据所有者,即数据发送者,和数据检索者及数据接收者不是同一方的密文检索技术。与非对称密码体制相似,数据所有者可以是了解公钥的任意用户,而只有拥有私钥的用户才可以生成检索陷门。一个简单典型的非对称密码检索过程如下:
(1) Setup 算法。该算法由数据检索者执行,生成公钥PK和私钥SK。
(2) BuildIndex算法。该算法由数据所有者执行,根据数据内容建立索引,并将公钥加密后的索引和数据本身上传到服务器。
(3) GenTrapdoor算法。该算法由数据检索者执行,将私钥和检索关键词作为输人,生成相应的陷门,然后将陷门发送给服务器。
(4) Search算法。该算法由服务器执行,将公钥.接收到的陷门和本地存储的索引作为输人,进行协议所预设的计算,最后输出满足条件的搜索结果。
- BDOP-PEKS
- KR-PEKS
- DS-PEKS
第四章 安全处理技术
-
同态加密技术
同态加密是基于数学难题的计算复杂性理论的密码学技术。对经过同态加密的数据进行处理得到一个输出,将这一输出进行解密,其结果与用同一方法处理未加密的原始数据得到的输出结果是一样的。
一个同态加密方案ε通常由以下4个算法组成:
(1) KeyGen 算法。输入安全参数λ(λ通常用来刻画密钥的比特长度),生成公钥pk和私钥sk ,即( pk,sk)<-KeyGen(λ)(2) Encrypt算法。输入明文m∈{0,1}和公钥pk,得到密文c ,即 c< ——Encrypt(pk, m)。
(3) Decrypt算法。输入私钥sk和密文c,得到明文m,即 m< ——Decrypt( sk, c)。
一般地﹐普通公钥加密方案是由上述前3个算法组成的,第四个算法是同态公钥加密方案所特有的,必要条件是其输出的密文能够被正确地解密,也就是说必须满足正确性。
第五章 隐私保护技术
K匿名技术 关键型数据变化
在大数据的时代,很多机构需要面向公众或研究者发布其收集的数据,例如医疗数据,地区政务数据等。这些数据中往往包含了个人用户或企业用户的隐私数据,这要求发布机构在发布前对数据进行脱敏处理。K匿名算法是比较通用的一种数据脱敏方法。
K-匿名的基本概念
为解决链接攻击所导致的隐私泄露问题,引入k-匿名 (k-anonymity) 方法。k-匿名通过概括(对数据进行更加概括、抽象的描述)和隐匿(不发布某些数据项)技术,发布精度较低的数据,使得同一个准标识符至少有k条记录,使观察者无法通过准标识符连接记录。
- 概括(Generalization):指对数据进行更加概括、抽象的描述,使得无法区分具体数值,例如年龄这个数据组,概括成一个年龄段(例如上表中的>=40岁)。
- 隐匿(Suppression):指不发布某些信息,例如上表中的用*号替换邮编的末三位。通过降低发布数据的精度,使得每条记录至少与数据表中其他的K-1条记录具有完全相同的准标识符属性值,从而降低链接攻击所导致的隐私泄露风险。
为避免攻击者通过链接攻击,从发布的数据中唯一的标识出特定的匹配用户,导致用户身份泄露。k匿名技术模型方案按照准标识符将数据记录分成不同的分组。且每一分组中至少包含k条记录,这样每个具有某个准标识符的记录都至少与k-1条其他记录不可区分,从而实现用户身份的匿名保护。
eg1
参考自 https://www.cnblogs.com/sddai/p/11963526.html
eg2
参考自https://blog.csdn.net/Mrs_Wu/article/details/79658281?spm=1001.2101.3001.6650.2&utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7ECTRLIST%7ERate-2-79658281-blog-84940891.235%5Ev38%5Epc_relevant_anti_t3&depth_1-utm_source=distribute.pc_relevant.none-task-blog-2%7Edefault%7ECTRLIST%7ERate-2-79658281-blog-84940891.235%5Ev38%5Epc_relevant_anti_t3&utm_relevant_index=5
k-匿名攻击存在着同质化攻击和背景知识攻击两种缺陷。所谓同质化攻击是指某个k-匿名组内对应的敏感属性的值也完全相同,这使得攻击者可以轻易获取想要的信息。而背景知识攻击是指即使k-匿名组内的敏感属性值并不相同,攻击者也有可能依据其已有的背景知识以高概率获取到其隐私信息
eg3
参考自“http://www.taodudu.cc/news/show-4386976.html?action=onClick”