大数据安全与隐私保护

大数据安全与隐私保护

期末复习-湖南科技大学,摸石头过河整理,东拼西凑版,还请轻喷。

题型
  1. 简答题 5 个 50分
  2. 论述题 1 个 30分
  3. 综合题 1 个 20分

第一章 绪论

  1. 大数据概述

    什么是大数据? 大数据的特点?来源与应用?发展历程?

    • 大数据是指规模大且复杂,以至于很难用现有的数据库管理工具或数据处理方式来处理的数据集。

    • 大数据的特点主要是5V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)

    • 大数据的主要来源为:互联网大数据、物联网大数据、生物医学大数据,此外还有电、金融、智慧城市交通和科学研究大数据

    • 大数据的发展主要经过了:萌芽期 - 成长期 - 爆发期 - 应用期

      大数据技术框架

    请添加图片描述

  2. 大数据隐私防护

    大数据安全的挑战

    • 在满足可用性的前提下保护大数据机密性
    • 通过访问控制实现大数据的安全共享
    • 实现大数据的真实性验证和可信溯源

    大数据安全与大数据隐私保护的区别

    • 隐私安全一般仅聚焦于匿名性,而大数据安全则关注广泛,其保护目标包括数据机密性、数据完整性、真实性、不可否认性和平台安全,数据权判定等。
  3. 大数据生命周期安全性分析

请添加图片描述

数据采集阶段

  • 本地差分隐私等方法,保护从用户或传感器上收集到的数据。

数据传输阶段

  • SSL通信加密协议,VPN技术或专用加密机,保障数据传输过程安全。

数据分析与使用阶段

  • 实现数据挖掘过程中的用户隐私保护,降低多源异构数据集成中的隐私泄露。

第二章 安全存储与访问控制

  1. 基本概念

    (1)主体:能够发起对资源的访问请求的主动实体,通常为系统的用户或进程.

    (2)客体:能够被操作的被动实体,通常是各类系统和数据资源。

    (3) 操作:主体对客体的读、写等动作或行为。

    (4)访问权限:客体以及对客体的操作形成的二元组≤操作,客体>。

    (5)访问控制策略:对系统中主体访问客体的约束需求的描述。

    (6)访问(引用)授权:访问控制系统按照访问控制策略进行访问权限的赋予。

    (7) 引用监控机(Reference Monitor,RM):系统中监控主体和客体之间授权访问的部件。它的模型如图2-1所示。

请添加图片描述

(8)引用验证机制(Reference Validation Mechanism,RVM):RM的软硬件实现。引用验证机制是真实系统中访问控制能够被可信实施的基础。它必须满足如下3个属性:
1.)具有自我保护能力。

2.)总是处于活跃状态。

3.)必须设计得足够小,以便于分析和测试。
其中,属性①确保了RVM的安全性,即能够抵抗攻击;属性②确保了所有访问行为都受到监控,即访问受控资源时,RVM机制不能被绕过;属性③则确保了RVM实现的正确性是易于验证的。由上述属性可知,在数据所有者自己负责数据存储的系统中,是能够建立RVM并验证其满足这3个属性的。而在由第三方提供存储服务的系统中,则难以构建RVM,而且难以对RVM的这3条属性进行验证。

  1. 访问控制模型

    在计算机系统中,认证、访问控制(Access Control)和审计共同建立了保护系统安全的基础。认证是用户进入系统的第一道防线,访问控制是在鉴别用户的合法身份后,控制用户对数据信息的访问,它是通过引用监控器实施这种访问控制的。

    访问控制是在身份认证的基础上,根据身份对提出的资源访问请求加以控制,是针对越权使用资源的现象进行防御的措施。访问控制是网络安全防范和保护的主要策略,它可以限制对关键资源的访问,防止非法用户或合法用户的不慎操作所造成的破坏。

    目的:为了限制访问主体(用户、进程、服务等)对访问客体(文件、系统等)的访问权限,从而使计算机系统在合法范围内使用;决定用户能做什么,也决定代表一定用户利益的程序能做什么。

  2. 角色挖掘技术

    角色挖掘(role mining)是通过分析用户到资源映象数据来确定或修改企业内基于角色的访问控制(RBAC)的用户许可过程。在某一商业环境中,角色是根据工作能力、职权及责任确定的。角色挖掘的最终目的是根据个体在某一组织内所担当的角色或发挥的作用来实现最佳安全管理。

    角色挖掘可通过自下而上(bottom-up)、自上而下(top-down)和依照示例(by-example)三种途径加以实施。自下而上的角色挖掘中,使用者被按照各自技能或职责给予原已经存在的角色;自上而下的角色挖掘中制订了各类角色,用以匹配个体使用者的技能或职责;依照示例的角色挖掘中,角色用以匹配由经营管理者确定的使用者技能和职责。

    有效的角色挖掘的优点包括:

    • 为用户权限提供角色最优分配

    • 鉴别在正常模式外进行操作的用户

    • 检测并删除冗余或过量的角色或用户权限

    • 使角色定义及用户权限保持最新

    • 消除潜在安全漏洞、降低随之发生的各类风险

      角色挖掘起源于基于角色的访问控制,能够辅助管理员发现系统中的潜在角色,从而简化管理员的权限管理工作。其中,基于机器学习的角色挖掘技术可用性更强,角色可合理解释,而且策略反映权限实际使用情况。生成角色模型用途广泛,既可用于策略中错误的发现和标识,也可用于权限使用过程中的异常检测。

  3. 风险自适应访问控制技术
    针对大数据场景中安全管理员缺乏足够的专业知识,无法准确地为用户分配数据访问权限的问题,人们提出了风险自适应访问控制技术,将风险量化并为使用者分配访问配额。评估并积累用户访问资源的安全风险,当用户访问的资源的风险数值高于某个预定的门限时,限制用户继续访问。通过合理定义与量化风险,提供动态、自适应的访问控制服务。

  4. 基于密钥管理的访问控制技术

    参与方包括:

    • 数据所有者:拥有数据和完整的用户密钥树,负责根据数据分享的目标对象,有选择地从用户密钥树中选取加密密钥对数据进行加密,并将加密结果广播式发送给所有用户。
    • 普通用户:拥有用户密钥树中的与自己相关的部分密钥,负责接收数据密文并利用自己持有的密钥解密数据。

    基于公钥广播加密的访问控制

    • 公钥服务器:负责维护一个密钥集合。即将系统中的所有用户划分为子集,每个子集代表了可能的数据接收者集合。为每个子集产生公私钥对,并将私钥安全分发给其包含的用户。

    • 数据所有者:负责将数据加密,并采用基于公钥广播加密技术对加密密钥进行分发,以实现对授权接收者的限定。

    • 数据服务者:负责加密数据的存储,并向用户提供对数据的操作。

    • 用户:是数据的访问者。只有被数据所有者授权的用户才能获得数据的加密密钥,并进一步解密出数据。

      由于采用公钥加密方式,所以系统的所有用户都可以是数据所有者,并向其他用户分享数据,消除了单发送者广播加密方案对发送者范围的限制。

  5. 基于属性加密的访问控制技术

    • 在基于密钥管理的访问控制中,系统通过控制用户持有的密钥集合来区分用户,进而实施授权和访问控制。
    • 基于属性加密的访问控制是通过更加灵活的属性管理来实现访问控制,即将属性集合作为公钥进行数据加密,要求只有满足该属性集合的用户才能解密数据。
      请添加图片描述
      请添加图片描述

第三章 安全检索技术

近年来,安全检索技术聚焦于探索密文检索技术,以实现在密文数据上的直接检索操作。密文检索技术可被分成对称密文检索和非对称密文检索。对称密文检索技术中只有数据拥有者拥有密钥,并提交敏感数据,故而数据拥有者就是数据检索者,这使得该技术更适用于单用户的情形,具有安全性高、加密、搜索运算效率高的特点。具体的实例有基于全文扫描的方法、基于文档-关键词索引的方法、基于关键词-文档索引的方法等。而非对称密文检索主要采取非对称密文关键词检索(public key encryption with keyword search,PEKS)方案,任何可以获得数据检索者公钥的用户都可以提交敏感数据,但是只有拥有数据检索者私钥的用户才可以生成陷门,因此更适用于多用户的情形,算法功能强,但与哈希函数和分组密码运算相比,效率较低。经典实例有BDOPPEKS方案、KR-PEKS方案、DSPEKS方案等。在教育应用方面,该技术主要用于教育信息系统文件安全保障。

  1. 对称密文检索

    在对称密文检索方案中,数据所有者和数据检索者为同一方。场景适用于大部分第三方存储。也是近几年本领域的研究热点。个典型的对称密文检索方案包括如下算法。

    (1) Setup算法。该算法由数据所有者执行,生成用于加密数据和索引的密钥。

    (2) BuildIndex算法。该算法由数据所有者执行,根据数据内容建立索引,并将加密后的索引和数据本身上传到服务器。

    (3 ) GenTrapdoor算法。该算法由数据所有者执行,根据检索条件生成相应的陷门(又称搜索凭证),然后将其发送给服务器。

    (4) Search算法。该算法由服务器执行,将接收到的陷门和本地存储的密文索引作为输入﹐并进行协议所预设的计算,最后输出满足条件的密文结果。

    对称密文检索的核心与基础部分是单关键词检索。目前,SSE可根据检索机制的不同大致分为三大类:基于全文扫描的方法,基于文档-关键词索引的方法以及基于关键词-文档索引的方法。

    在单关键词SSE的基础上,人们更为深人地研究了多关键词检索。本节首先介绍3类SSE方案,然后介绍其在多关键词检索﹑模糊检索、Top-k检索﹑前向安全检索等领域的进展,最后对上述方法进行总结。

    • 基于全文扫描的方案
    • 基于文档-关键词索引的方案
    • 基于关键词-文档索引的方案
  2. 非对称密文检索

    非对称密文检索是指数据所有者,即数据发送者,和数据检索者及数据接收者不是同一方的密文检索技术。与非对称密码体制相似,数据所有者可以是了解公钥的任意用户,而只有拥有私钥的用户才可以生成检索陷门。一个简单典型的非对称密码检索过程如下:

    (1) Setup 算法。该算法由数据检索者执行,生成公钥PK和私钥SK。

    (2) BuildIndex算法。该算法由数据所有者执行,根据数据内容建立索引,并将公钥加密后的索引和数据本身上传到服务器。

    (3) GenTrapdoor算法。该算法由数据检索者执行,将私钥和检索关键词作为输人,生成相应的陷门,然后将陷门发送给服务器。

    (4) Search算法。该算法由服务器执行,将公钥.接收到的陷门和本地存储的索引作为输人,进行协议所预设的计算,最后输出满足条件的搜索结果。

    • BDOP-PEKS
    • KR-PEKS
    • DS-PEKS

第四章 安全处理技术

  1. 同态加密技术

    同态加密是基于数学难题的计算复杂性理论的密码学技术。对经过同态加密的数据进行处理得到一个输出,将这一输出进行解密,其结果与用同一方法处理未加密的原始数据得到的输出结果是一样的。
    一个同态加密方案ε通常由以下4个算法组成:
    (1) KeyGen 算法。输入安全参数λ(λ通常用来刻画密钥的比特长度),生成公钥pk和私钥sk ,即( pk,sk)<-KeyGen(λ)

    (2) Encrypt算法。输入明文m∈{0,1}和公钥pk,得到密文c ,即 c< ——Encrypt(pk, m)。

    (3) Decrypt算法。输入私钥sk和密文c,得到明文m,即 m< ——Decrypt( sk, c)。
    请添加图片描述

    一般地﹐普通公钥加密方案是由上述前3个算法组成的,第四个算法是同态公钥加密方案所特有的,必要条件是其输出的密文能够被正确地解密,也就是说必须满足正确性。

第五章 隐私保护技术

K匿名技术 关键型数据变化

在大数据的时代,很多机构需要面向公众或研究者发布其收集的数据,例如医疗数据,地区政务数据等。这些数据中往往包含了个人用户或企业用户的隐私数据,这要求发布机构在发布前对数据进行脱敏处理。K匿名算法是比较通用的一种数据脱敏方法。

K-匿名的基本概念
为解决链接攻击所导致的隐私泄露问题,引入k-匿名 (k-anonymity) 方法。k-匿名通过概括(对数据进行更加概括、抽象的描述)和隐匿(不发布某些数据项)技术,发布精度较低的数据,使得同一个准标识符至少有k条记录,使观察者无法通过准标识符连接记录。

  • 概括(Generalization):指对数据进行更加概括、抽象的描述,使得无法区分具体数值,例如年龄这个数据组,概括成一个年龄段(例如上表中的>=40岁)。
  • 隐匿(Suppression):指不发布某些信息,例如上表中的用*号替换邮编的末三位。通过降低发布数据的精度,使得每条记录至少与数据表中其他的K-1条记录具有完全相同的准标识符属性值,从而降低链接攻击所导致的隐私泄露风险。

为避免攻击者通过链接攻击,从发布的数据中唯一的标识出特定的匹配用户,导致用户身份泄露。k匿名技术模型方案按照准标识符将数据记录分成不同的分组。且每一分组中至少包含k条记录,这样每个具有某个准标识符的记录都至少与k-1条其他记录不可区分,从而实现用户身份的匿名保护。

eg1

参考自 https://www.cnblogs.com/sddai/p/11963526.html

请添加图片描述

eg2

参考自https://blog.csdn.net/Mrs_Wu/article/details/79658281?spm=1001.2101.3001.6650.2&utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7ECTRLIST%7ERate-2-79658281-blog-84940891.235%5Ev38%5Epc_relevant_anti_t3&depth_1-utm_source=distribute.pc_relevant.none-task-blog-2%7Edefault%7ECTRLIST%7ERate-2-79658281-blog-84940891.235%5Ev38%5Epc_relevant_anti_t3&utm_relevant_index=5
请添加图片描述

k-匿名攻击存在着同质化攻击和背景知识攻击两种缺陷。所谓同质化攻击是指某个k-匿名组内对应的敏感属性的值也完全相同,这使得攻击者可以轻易获取想要的信息。而背景知识攻击是指即使k-匿名组内的敏感属性值并不相同,攻击者也有可能依据其已有的背景知识以高概率获取到其隐私信息

eg3

参考自“http://www.taodudu.cc/news/show-4386976.html?action=onClick”
请添加图片描述
请添加图片描述

大数据安全隐私保护 作者:冯登国 张敏 李昊 中国科学院软件研究所 大数据安全隐私保护全文共24页,当前为第1页。 大数据安全隐私保护 大数据的现状 1 大数据研究概述 2 大数据带来的安全挑战 3 大数据安全隐私保护关键技术 4 大数据服务与信息安全 5 小结 6 大数据安全隐私保护全文共24页,当前为第2页。 一、大数据的现状 为什么我们要 研究大数据? 在科学界《Nature》和《Science》都推出了大数据专利对其展开探讨,意味着大数据成为云计算之后的信息技术领域的另一个信息产业增长点。 当今,社会信息化和 网络化的发展导致数 据的爆炸式增长,据 统计,平均每秒有 200万的用户在使用 谷歌搜索,各行业 也有大量数据在不 断产生。 缺点:安全与隐私问题是人们公认的关键问题。 大数据安全隐私保护全文共24页,当前为第3页。 二、大数据研究概述 大数据 大规模 高速性 多样性 人 机 物 特点 来源 大数据安全隐私保护全文共24页,当前为第4页。 大数据分析目标 1 获得知识与推测趋势 由于大数据包含大量原始、真实信息,大数据分析能够有效摒弃个体差异,帮助人们透过现象把握规律。 2 分析掌握个性化特征 企业通过长时间、多维度的数据积累,可以分析用户行为规律,为用户提供更好的个性化产品和服务,以及更精确的广告推荐。 3 通过分析辨别真相 由于网络中信息的传递更变便利,所以网络虚假信息造成的危害也更大。 目前人们开始尝试利用大数据进行虚假信息的识别。 大数据安全隐私保护全文共24页,当前为第5页。 大数据技术框架 数据解释 旨在更好地支持用户对数据分析结果的使用,涉及的主要技术为可视化和人机交互。 数据分析 分为三类:计算架构,查询与索引,数据分析和处理。 数据采集与预处理 由于大数据的来源不一,可能存在不同模式的描述,甚至存在矛盾。因此。在数据集成过程中对数据进行清洗,以消除相似、重复或不一致的数据是非常必要的。 大数据安全隐私保护全文共24页,当前为第6页。 三、大数据带来的安全挑战 大数据中的用户隐私保护 大数据的可信性 如何实现大数据的访问控制 大数据带来的安全挑战 大数据安全隐私保护全文共24页,当前为第7页。 大数据带来的安全挑战 用户隐私 保护 大数据的可信性 如何实现 大数据访 问控制 不仅限于个人隐私泄漏,还在于基于大数据对人们状态和行为的预 测。 目前用户数据的收集、管理 和使用缺乏监 管,主要依靠 企业自律 威胁之一是伪造或刻意制造数据, 而错误的数据往往会导致错误的结论。 威胁之二是数 据在传播中的 逐步失真。 (1)难以预设角色,实现角色划分; (2)难以预知每个角色的实际权限。 大数据安全隐私保护全文共24页,当前为第8页。 四、大数据安全隐私保护关键技术 数据发布匿名保护技术 1 社交网络匿名保护技术 2 数据水印技术 3 数据溯源技术 4 角色挖掘技术 5 风险自适应的访问控制 6 大数据安全隐私保护全文共24页,当前为第9页。 数据发布匿名保护技术 数据发布匿名保护技术是对大数据中结构化数据实现隐私保护的核心关键与基本技术手段 典型例子:K匿名方案 k-匿名技术要求发布的数据中存在 一定数量(至少为k) 的在准标识符上不可区分的记录,使攻击者不能判别出隐私信息所属的具体个体,从而保护了个人隐私 K匿名方案 优势 一定程度上保护了数据的隐私,能够很好的解决静态、一次发布的数据隐私保护问题 劣势 不能应对数据连续多次发布、攻击者从多渠道获得数据的问题的场景。 大数据安全隐私保护全文共24页,当前为第10页。 社交网络匿名保护技术 社交网络中典型的匿名保护: 1、用户标识匿名与属性匿名,在数据发布时隐藏了 用户的标识与属性信息 2、用户间关系匿名,在数据发布时隐藏了用户间的关系 常见社交网络匿名保护 1 边匿名方案多基于边的增删,用随机增删交换便的方法有效地实现边匿名 不足:匿名边保护不足 2 基于超级节点对图结构进行分割和集聚操作 不足:牺牲数据的可用性 大数据安全隐私保护全文共24页,当前为第11页。 数据水印技术 数据水印是指将标识信息以难以察觉的方式嵌入在数据载体内部且不影响其使用方法,多见于多媒体数据版权保护,也有针对数据库和文本文件的水印方案。 前提:数据中存在冗余信息或可容忍一定精度的误差 案例: 1、Agrawal等人基于数据库中数值型数据存在误差容忍范围,将少量水印信息嵌入到这些数据中随机选取的最不重要位上。 2、Sion等人基于数据集合统计特征,将水印信息嵌入属性数据中,防止攻击者破坏水印 大数据安全隐私保护全文共24页,当前为第12页。 数据水印技术应用:强健水印类可用于大数据起源证明,脆弱水印类可证明数据的真实性 存在的问题:当前方案多基于静
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Dr.Water

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值