作者:佳境
来源:https://shmily-qjj.top/f5da73a2/
大数据发展速度飞快,大数据的价值也有目共睹,在大数据技术领域,对于分析性能,实时性等方面都有了很大的突破,但数据安全问题在数据业务建立初期很难被重视,而数据规模壮大后才开始重视,以致大多数企业大数据平台安全管控能力普遍缺失。。现今数据安全问题频发,而且一旦发生就会对公司造成很严重的利益甚至声誉损害。
数据安全引发的问题代价极高,后果严重,而我们又不能保证服务器永远不会被攻击,所以,及时止损才是关键,大数据脱敏正是这关键的一个环节。有了数据脱敏,就可以随时保护用户隐私,防止重要信息泄露,即使服务器被攻击或有内鬼,也不担心敏感数据被带走。看来既要防外贼又要防内鬼,任重道远啊…
所以数据脱敏是大数据处理链路中重要的一环,建立大数据脱敏体系平台迫在眉睫。
数据脱敏
定义
数据脱敏(Data Masking),又称数据漂白、数据去隐私化或数据变形。对敏感信息通过脱敏规则进行数据的变形,模糊化,伪装从而实现敏感隐私数据 的可靠保护。数据脱敏后,就可以在开发、测试和其它非生产环境以及外包环境中安全地使用脱敏后的真实数据集。
目标
- 针对大数据敏感数据信息,设计并落实敏感数据安全解决方案,实现敏感数据的模糊化,确保敏感数据信息安全可靠
- 通过大数据平台安全方案的建设,填补大数据平台数据安全防护方面的空缺,有效降低大数据安全管控方面的风险
- 发生数据泄露时风险可控
- 可管控的数据脱敏平台,结合用户认证和权限管理以及隐私数据级别实现基于审批模式的数据访问
- 数据分析与数据脱敏是矛盾的,要做到同时兼顾数据安全和数据使用,保证数据安全的同时最大化数据的分析价值
- 做到数据审计,发生数据泄露时方便快速定位泄露原因
难点
- 海量存量数据已经形成
- 主要涉及系统和数仓两个层面,应用多,应用环境复杂
- 主动发现敏感数据困难
原则
- 脱敏通常多数情况是不可逆的,但也有要求可以恢复原始数据的场景
- 脱敏后数据通常应具有原数据的特征,适用于开发和测试环境,而不是无意义的字符串,比如银行卡号前四位表示银行名称脱敏后这四位也保持不变;数据要求高时,可能要做到脱敏后数据与原始数据频率分布一致,字段唯一性等
- 数据 关联关系要保留