读书笔记之大数据隐私与安全

1、大数据所面临的的安全问题
速度方面的问题:传统的关系型数据库管理系统一般都采用集中式的存储和处理,没有采用分布式架构,这种配置在面对不断增长的数据量和动态数据使用场景时在速度响应方面捉襟见肘,面对大数据量的导入导出、统计分析、检索查询方面,由于依赖于集中式的数据存储和索引,性能随着数据量的增长而急速下降;

种类及架构问题:随着物联网、互联网以及通信网络的飞速发展,数据的格式及种类在不断变化和发展,比如在智能交通领域,所涉及的数据包含文本、日志、图片、视频、矢量地图等来自不同数据采集监控源的、不同种类的数据,这些数据的格式通常都不固定,采用结构化的存储模式很难应对不断变化的需求,需要采用新型的分布式文件系统及分布式NoSQL数据库架构;

体量及灵活性问题:数据量越来越大的时候,集中式的文件系统或单数据库操作成为致命的性能瓶颈,可以采用线性扩展的架构和方式,把数据压力分散到很多台机器上,这样就可以根据数据量和并发量来动态增加和减少文件或数据库服务器。在计算领域中资源分配、任务分配实际上是一个任务调度问题,主要任务是根据当前集群中各个结点上的资源占用情况和各个用户作业服务质量要求,在资源和作业及任务间做出最优匹配;

成本问题:集中式的数据存储和处理对硬件选型时,基本采用的方式都是配置高的服务器和访问速度快、保障性高的磁盘阵列,保证数据处理性能。新型分布式存储架构、分布式数据库由于大多采用去中心化、海量并行处理MPP架构,在数据处理上不存在集中处理和汇总瓶颈,同时具备线性扩展能力,能够有效应对大数据存储和处理问题,在软件架构上也都实现了一些自管理、自恢复的机制,以面对大规模结点容易出现的偶发故障,保障系统整体的健壮性;

价值挖掘问题:传统的数据挖掘一般数据量较小,算法相对复杂,收敛速度慢,大数据的数据量巨大,在对数据的存储、清洗、ETL方面都需要能够应对大数据量的需求和挑战,很大程度上需要采用分布式并行处理方式,并且需要结合大批量的离线计算和实时计算;

存储安全问题:关系型数据库管理系统经过几十年的发展已经形成了一套完善的存储、访问、安全和备份控制体系,但是由于大数据对传统RDMS的冲击,集中式的数据存储和处理也在转向分布式并行处理,然而这些新兴系统,在用户管理、数据访问权限、备份机制、安全控制等各方面还需要进一步完善;

互联互通与数据共享问题:信息化建设过程中,普遍存在条块分割和信息孤岛现象,不同行业之间的系统和数据几乎没有交集,同一行业通常也是按照行政领域划分,跨区域的信息交互和协同比较困难,为实现跨行业数据整合,需要制定统一数据标准、交换接口、共享协议,这样不同行业、不同部门、不同格式的数据才能基于一个统一的基础进行访问和共享。

2、基于大数据威胁的发现技术的特点

  • 分析内容的范围更大——传统的威胁分析主要针对内容是各类安全事件,通过在威胁监测方面引入大数据分析技术可以更全面地发现针对信息资产(包括数据资产、软件资产、实物资产、人员资产、服务资产和其他无形资产)的攻击;
  • 分析内容的时间跨度更长——实时收集数据,采用分析技术发现攻击的情况下,分析窗口通常受限于内存大小,无法应对持续性和潜伏性攻击,引入大数据分析技术可以使得分析窗口跨度增大,发现威胁的能力更强,从而有效应对APT类攻击;
  • 攻击威胁的预测性——传统的安全防护技术大多在攻击发生后对攻击行为进行分析和归类,并做出相应。基于大数据的威胁分析可以进行超前预判,能够寻找潜在的安全威胁,对未发生的攻击行为进行预防;
  • 对未知威胁的检测——传统威胁分析通常由经验丰富的专业人员根据企业需求和实际情况展开,这种威胁分析的结果很大程度上依赖于个人经验。大数据分析侧重于普通关联分析,不侧重因果分析,采用恰当的分析模型可以发现未知威胁。

3、基于大数据的认证技术:收集用户行为和设备行为数据,并对这些数据进行分析,获得用户行为和设备行为的特征,为用户勾画一个行为特征的轮廓,进而通过鉴别操作者行为及设备行为来确定身份。攻击者很难模拟用户行为特征来通过认证,因此更加安全;用户行为和设备行为特征数据的采集、存储和分析都由认证系统完成,可以减轻用户负担;也可以更好地支持各系统认证机制的统一,可以在整个网络空间采用相同的行为特征进行身份认证。

4、基于大数据的数据真实性分析:能够提高垃圾信息的鉴别能力,一方面,引入大数据分析可以获得最高的识别准确率;另一方面,在进行大数据分析时,通过机器学习技术可以发现更多具有新特征的垃圾信息,所面临的一些困难主要是虚假信息的定义和分析模型的构建等。

5、大数据安全的防护策略

  • 确保身份安全——进行大数据分析需要把大型数据集划分成易于管理的单个部分,然后分别通过Hadoop集群处理,最后将它们重新组合以产生所需分析。这个过程高度自动化,涉及大量跨集群的机器对机器(M2M)交互,在Hadoop的基础设施会发生访问Hadoop集群、簇间通信、集群访问数据源的授权,这些授权往往基于SSH密钥,对于使用Hadoop是理想的,其安全级别支持自动化的M2M通信。
  • 风险——忽视M2M身份验证的现实风险,容易滥用以机器为主的证书导致数据泄露,企业在管理终端用户身份上取得很大进步时,却忽视了应以同样标准处理机器为主的身份验证的需求,结果导致整个IT环境遍布风险。
  • 密钥管理——为了管理用于保护M2M通信的认证密钥,许多系统管理员使用电子表格或自编脚本控制分配、监控并清点密钥,通常会漏掉许多密钥,缺少对密钥的集中控制严重影响法规遵从。
  • 安全策略——大数据的兴起伴随着数据存取控制的新型风险,M2M身份管理必不可少,但是传统的人工IAM做法效率低且风险高,盘点所有密钥,使用最优方法可以节省时间和金钱,同时提高安全性和法规遵从。

学习感受:当前世界发展潮流下,尤其是在数据、算法加持下的人工智能时代,大数据与个人生活息息相关,每个人都好像被具化为一个网络镜像,没有人能逃离数据的监视。或许有人说“那些不上网,不参与任何网络活动的人就不会有隐私泄露的问题”,其实,这部分人士的信息已经又以另一种形式存于网上,即底层社会组织关系网,比如:有的老人不会上网,子女或许会定期网上购物、预约医疗、购买保险等等。或有心、或无心的各种数据搜集行为让每一个人都在网络上无处遁形,被时代裹挟着前进,享受着数据带来的优势和便利,又无法摆脱深陷的快餐文化,希望以后构建的群体镜像能够更多地服务于社会,不要再打着个人的幌子“偷走”属于本该自己掌控的时间和金钱。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值