1、影响数据安全的要素
1.1、数据来源的可信性
企业级大数据应用需要从不同的终端设备或日志中采集数据,普遍误解是这些数据本身都是真实有效的,能够反应实际情况,但实际情况,有些数据得到的结果是不可信的,可能是不准确的。
数据来源存在以下风险:
1. 伪造或刻意制造的数据
修改数据采集软件或篡改数据本身来实现;
通过ID克隆攻击(如Sybil攻击);
如:某些购物网站,某些劣质商品或服务的虚假评论。
2. 数据在传输过程中逐步失真或被人为破坏
原因之一是某些数据采集的过程中是需要人工干预的,干预过程中更可能引入误差,影响结果的真实性。
原因之二是数据在传播过程中,现实情况发生了变化,使得早期采集的数据已经过时。
原因之三是攻击者可能在数据传输过程中破坏数据。(如:通过执行中间人攻击(Man-In –The –Middle,MITM)或者重放攻击(Replay Attack)来破坏数据)
a) 中间人攻击(Man-In –The –Middle,MITM)
一 .原理
代理服务的一个典型模型:
client <<-data-> proxy server <ßdata-> Web Server
middle man
上面可以看出:client 发出的请求 和 web server返回的数据都经过proxy server 转发,这个proxy server 就起到了一个middle man的作用,如果这个“中间人” 够黑,那么整个代理过程的数据 都可以由这个“中间人”控制。
b) 重放攻击(Replay Attack)
所谓重放攻击就是攻击者发送一个目的主机已接收过的包,来达到欺骗系统的目的,主要用于身份认证过程。
为了抵御重放攻击,现在的身份认证一般采用挑战因答方式。
用户 系统
-----申请登陆----〉
〈---发送挑战值----
计算相应的应答值
------发送应答值--〉
判断应答值是否正确
〈---通过认证(正确)--
不正确断开连接
这里要注意的是挑战值得熵值必须大(变化量要很大),若挑战值变化量不大,攻击者只需截获足够的挑战应答关系,就可以进行重放攻击了。
3. 元数据被伪造或修改
元数据是指描述数据属性的一组数据,如文件大小、创建时间等。
攻击者可能不破坏数据本身,而对元数据进行修改;
由于元数据可以被用来检查数据来源以及审计工作,破坏元数据可能导致数据来源无法确认,或者审计系统的错误;
如:金融公司的交易系统需要检查交易数据的创建时间;
总结:大数据的应用应该基于真实的数据来源,在数据传播途径、数据加工处理过程中掌握数据的可信度,防止分析得出无意义或者错误的结果。
1.2、数据泄漏
例子:在某个知名的搜索引擎上搜索某个关键词,网页上会显示出与该关键词相关的广告信息,而后访问其他毫不相关的网站时,之前的这些广告仍然可能会出现。广告商正是利用用户输入的关键词来向用户推荐商品,用户在毫不相关的网站上输入关键词的同时,这些关键词也泄漏给了广告公司,这是大数据泄漏的典型例子
数据泄漏的方式包括拦截和泄漏存储在移动设备或者应用中的数据。
1.3、数据挖掘和分析中的隐私问题
个人隐私问题分为两种:
1、原始数据本身:个人新的姓名、电子邮件、手机号、信用卡等信息;
2、 隐含在原始数据中的关系信息,它揭示了数据之间的某种关联,需要用数据挖掘算法将它找出,如:个人工资与月消费额之间的关联,病人的特征与某些疾病的关联等。
数据挖掘技术在侵犯用户隐私的同时,还有可能不恰当的利用这些隐私信息。
数据加密是保护数据不被窃取的一种有效方法。可以从自己的数据中通过匿名保护技术去除掉一些信息。
如何既保护用户的隐私信息又能挖掘出有效的知识和规则,即隐私保护的数据挖掘,成为数据挖掘领域的研究热点。