数据脱敏
- 对数据敏感程度进行安全级别划分
- 绝密
- 高保密
- 保密
- 可公开
- 敏感数据梳理
- 用户维度
- 手机号码、邮件地址、账号、地址、固定电话号码等信息(此外个人隐私数据相关还有如:种族、政治观点、宗教信仰、基因等)
- 用户终端维度
- 能够可能标识终端的唯一性字段,如设备id。
- 公司角度
- 交易金额、代金卷密码、充值码等
- 用户维度
- 确定脱敏处理方法
- 替换
- 如统一将女性用户名替换为F,这种方法更像“障眼法”,对内部人员可以完全保持信息完整性,但易破解。
- 重排
- 序号12345重排为54321,按照一定的顺序进行打乱,很像“替换”, 可以在需要时方便还原信息,但同样易破解。
- 加密
- 编号12345加密为23456,安全程度取决于采用哪种加密算法,一般根据实际情况而定
- 截断
- 13811001111截断为138,舍弃必要信息来保证数据的模糊性,是比较常用的脱敏方法,但往往对生产不够友好。
- 掩码
- 123456 -> 1xxxx6,保留了部分信息,并且保证了信息的长度不变性,对信息持有者更易辨别, 如火车票上得身份信息。
- 日期偏移取整
- 20130520 12:30:45 -> 20130520 12:00:00,舍弃精度来保证原始数据的安全性,一般此种方法可以保护数据的时间分布密度。
- 替换
- 数据脱敏原则
- 尽可能的为脱敏后的应用,保留脱敏前的有意义信息
- 最大程度上防止黑客进行破解
- 确定实施范围和步骤
- 数据脱敏发生在服务层
- 实际
- 数据维度层 dim
- 基础服务数据层 fact
- 步骤
- 确定需要脱敏的数据和流程
- 对设计到数据脱敏的表的下游流程进行修改,避免因数据脱敏造成的数据误差
- 即确认数据格式和数据源工作
- 根据脱敏方法进行脱敏处理
- 注意
- 只是对用于非正常产出的时候需要数据脱敏