您的数据安全么?超全面的数据脱敏方案快来了解一下!

前言

当今社会已全面进入数据时代,数据被誉为“新时代的石油”,成为企业重要的新型生产要素,也成为国家、企业和个人的重要资产。这么重要的“宝贝”安全么?会不会被人偷走或盗用呢?答案显而易见,如果没有足够的安全保障措施,是无法确保数据安全的,既然是“宝贝”,谁看了不眼馋呢?

图片

今天小兵分享一个非常全面的数据脱敏解决方案,快来跟我一起了解一下吧!

01 概述

1.1数据脱敏定义

数据脱敏(Data Masking)是一种信息安全技术,旨在保护敏感信息和隐私数据,防止未经授权的访问或泄露。从原始环境向目标环境进行敏感数据交换的过程中,通过一定方法消除原始环境数据中的敏感信息,并保留目标环境业务所需的数据特征或内容的数据处理过程。

1.2数据脱敏原则

1.2.1 基本原则

数据脱敏工作不仅要确保敏感信息被去除,还需要尽可能的平衡脱敏所花费的代价、使用方的业务需求等多个因素。因此,为了确保数据脱敏的过程、代价可控,得到的结果正确且满足业务需要,在实施数据脱敏时,应从技术和管理两方面出发,符合以下基本原则.

1.2.2 技术原则

(1)有效性

数据脱敏的最基本原则就是要去掉数据中的敏感信息,保证数据安全,这是对数据脱敏工作最基本的要求。有效性要求经过数据脱敏处理后,原始信息中包含的敏感信息已被移除,无法通过处理后的数据得到敏感信息;或者需通过巨大经济代价、时间代价才能得到敏感信息,其成本已远远超过数据本身的价值。此外,在处理敏感信息时,应注意根据原始数据的特点和应用场景,选择合适的脱敏方法。

(2)真实性

由于脱敏后的数据需要在相关业务系统、测试系统等非原始环境中继续使用,因此需保证脱敏后的数据仍能真实体现原始数据的特征,且应尽可能多的保留原始数据中的有意义信息,以减小对使用该数据的系统的影响。需要注意的是,如果某一数据特征本身就是敏感信息,则不应保留。这是从后续使用到数据的系统出发提出的要求。

真实性要求脱敏过程需保持用于后续分析的数据真实特征,以助于实现数据相关业务需求。包括但不限于数据结构特征和数据统计特征:数据结构特征是指数据本身的构成遵循一定的规则(例如身份证号由地区编码、生日、顺序号和校验码组成):数据统计特征是指大量的数据记录所隐含的统计趋势(例如开户人地区分布、年龄分布等)。

为达到真实性要求,在开展数据脱敏工作时,一般情况下应注意:

  • 保持原数据的格式;

  • 保持原数据的类型保持原数据之间的依存关系保持语义完整性;

  • 保持引用完整性;

  • 保持数据的统计、聚合数据;

  • 保持频率分布;

  • 保持唯一性。

(3)高效性

应保证数据脱敏的过程可通过程序自动化实现,可重复执行。在不影响有效性的前提下,需注意平衡脱敏的力度与所花费的代价,将数据脱敏的工作控制在一定的时间和经济成本内。本质上,高效性是成本和安全性相互作用的结果,在确保一定安全底线的前提下,尽可能减少数据脱敏工作所花费的额外代价。

(4)稳定性

由于原始数据间存在关联性,为保障数据使用者可正常使用和分析数据,因此数据脱敏时需保证对相同的原始数据,在各输入条件一致的前提下,无论脱敏多少次,结果最终结果数据是相同的。如最终结果是不稳定的,可能导致数据使用者无法将本有联系的数据正确的进行关联,从而造成数据的使用出现问题。例如,某ID有两条记录,但是由于脱敏结果的不稳定,得到了两个不同的脱敏ID1和ID2,则在使用该数据时,就无法得知ID1和ID2其实是同一个ID,从而使得数据分析结果出现错误。

(5)可配置性

同一份原始数据,可能被用于不同的数据分析场景,由于不同场景下的安全要求不同,数据脱敏时的处理方式和处理字段也不尽相同。因此需通过配置的方式,按照输入条件不同生成不同的脱敏结果,从而可以方便的按数据使用场景等因素为不同的最终用户提供不同的脱敏数据。

图片

1.2.3 管理原则

(1)敏感信息识别

在进行数据脱敏前,首先应完整的梳理待处理数据中包含的所有信息分类(包括单条记录中每一个项目的内容/格式、多条记录联合后包含的统计特征等),然后明确其中哪些信息分类属于敏感信息,并标注出其敏感程度、泄露后可能造成的后果、应急预案等。需要注意的是,有些信息本身可能并不直接是敏感信息,但是可通过与其他一些信息结合后推断出敏感信息,此时也应将此类信息纳入数据脱敏的范围。

(2)安全可控

经过数据脱敏处理后,已知的敏感信息已经被隐藏和处理,但脱敏后的数据由于保持了原始数据的部分统计特征和结构特征等信息,仍可能存在一定的敏感信息泄漏风险。因此,仍然需要采取合适的方式控制知悉范围,通过恰当的安全管理手段,防止数据外泄。

(3)安全审计

在数据脱敏的各个阶段需加入安全审计机制,严格、详细记录数据处理过程中的相关信息,形成完整数据处理记录,用于后续问题排查与数据追踪分析,一旦发生泄密事件可追溯到是在哪个数据处理环节发生的。

(4)代码安全

对于执行数据脱敏的程序和代码模块,应当进行代码审查,并对上线前的程序和模块进行代码安全扫描,确保执行数据脱敏过程的程序安全可靠,无漏洞和后门。

1.3数据脱敏目标

  • 保护隐私:确保个人信息如身份证号、电话号码、银行账号等不被非法获取和利用。

  • 合规要求:满足行业规范和法律法规对数据保护的要求,如GDPR(欧盟通用数据保护条例)等。

  • 安全测试:在不影响真实数据安全的前提下,为软件测试、系统调试提供接近真实的测试数据。

  • 降低风险:即便数据被非法访问,由于已脱敏,实际敏感信息不会泄露,降低了数据泄露的风险。

图片

02 数据脱敏常用方法

2.1 泛化技术

泛化是指在保留原始数据局部特征的前提下使用一般值替代原始数据,泛化后的数据具有不可逆性,具体的技术方法包括但不限于:

(1)数据截断:

直接舍弃业务不需要的信息,仅保留部分关键信息,例如将手机号码13500010001截断为135。

(2)日期偏移取整:

按照一定粒度对时间进行向上或向下偏移取整,可在保证时间数据一定分布特征的情况下隐藏原始时间,例如将时间2015010101:01:09按照5秒钟粒度向下取整得到2015010101:01:05。

(3)规整:

将数据按照大小规整到预定义的多个档位,例如将客户资产按照规模分为高、中、低三个级别,将客户资产数据用这三个级别代替。

2.2 抑制技术

抑制是指通过隐藏数据中部分信息的方式来对原始数据的值进行转换,又称为隐藏技术,具体的技术方法包括但不限于:

掩码:用通用字符替换原始数据中的部分信息,例如将手机号码13500010001经过掩码得到135****0001,掩码后的数据长度与原始数据一样。

2.3 扰乱技术

扰乱是指通过加入噪声的方式对原始数据进行干扰,以实现对原始数据的扭曲、改变,扰乱后的数据仍保留着原始数据的分布特征,具体的技术方法包括但不限于:

(1)加密:

使用加密算法对原始数据进行加密,例如将编号12345加密为abcde。

(2)重排:

将原始数据按照特定的规则进行重新排列,例如将序号12345重排为54321。

(3)替换:

按照特定规则对原始数据进行替换,如统一将女性用户名替换为F。

(4)重写:

参考原数据的特征,重新生成数据。重写与整体替换较为类似,但替换后的数据与原始数据通常存在特定规则的映射关系,而重写生成的数据与原始数据则一般不具有映射关系。例如对雇员工资,可使用在一定范围内随机生成的方式重新构造数据。

(5)均化:

针对数值性的敏感数据,在保证脱敏后数据集总值或平均值与原数据集相同的情况下,改变数值的原始值。

(6)散列:

即对原始数据取散列值,使用散列值来代替原始数据。

2.4 有损技术

有损是指通过损失部分数据的方式来保护整个敏感数据集,适用于数据集的全部数据汇总后才构成敏感信息的场景,具体的技术方法包括但不限于:

限制返回行数:仅仅返回可用数据集合中一定行数的数据,例如商品配方数据,只有在拿到所有配方数据后才具有意义,可在脱敏时仅返回一行数据。

03 数据脱敏实施流程

图片

3.1 制定数据脱敏规程

组织机构应制定数据脱敏工作相关的规范和流程,对工作相关方进行规程的推广和培训,并长期维护和修订规程的内容,以保证数据脱敏工作执行的规范性和有效性。在该过程中,可实现以下事项:

(1)根据业务需求,建立敏感数据的分类分级制度、数据脱敏的工作流程、脱敏工具的运维管理制度,并定期对相关流程制度进行评审和修订。

(2)建立敏感数据分类分级制度时,可从个人隐私数据(如客户数据)、业务运营数据等方面对敏感数据分类,并根据敏感数据的重要性程度定义敏感数据的安全级别,同时明确对各类、各级别数据相应的安全管控机制。

(3)在数据脱敏工具的运维管理制度中,可纳入对数据脱敏工具的系统安全检测,以保证数据脱敏工具自身的安全性。

(4)在制度建立完成后,定期对数据脱敏工作的相关方,如数据管理方、数据使用方、脱敏工具运维方,开展针对相关制度的培训工作,以提升全员的规范化意识。

(5)针对数据脱敏工作流程,如数据脱敏申请、申请审批、数据下发、数据使用、数据回收等工作的流程化,可采用自动化的方式实现,提升数据脱敏工作开展的效率。

3.2 发现敏感数据

在已有的数据脱敏规程的基础上,为了有效的开展数据脱工作,如保证工作的开展能够覆盖到必须的业务范围、脱敏后数据对原数据业务特性的维承(如保持原数据间的依赖关系),组织机构需首先分析建立完整的敏感数据位置和关系库。

基于敏感数据分类分级制度,一方面明确敏感数据结构化或非结构化的数据表现形态如敏感数据固定的字段格式:另一方面建立有效的数据发现手段,在组织机构完整的数范围内查找并发现敏感数据。

在该过程中,可实现以下事项:

(1)定义数据脱敏工作执行的范围,在该范围内执行敏感数据的发现工作。

(2)通过数据表名称、字段名称、数据记录内容、数据表备注、数据文件内容等直接匹配或正则表达式匹配的方式发现敏感数据:

(3)考虑数据引用的完整性,如保证数据库的引用完整性约束。

(4)数据发现手段应支持主流的数据库系统、数据仓库系统、文件系统,同时应支持云计算环境下的主流新型存储系统。

(5)尽量利用自动化工具执行数据发现工作,并降低该过程对生产系统的影响。

(6)数据发现工具具有扩展机制,可根据业务需要自定义敏感数据的发现逻辑

图片

3.3 定义脱敏规则

针对组织机构内已定位出的敏感数据,组织机构需建立敏感数据在相关业务场景下的脱敏规则。在敏感数据生命周期识别的基础上,明确存在数据脱敏需求的业务场景,并结合行业法规的要求和业务场景的需求,制定相应业务场景下有效的数据脱敏规则。

在该过程中,可实现以下事项:

(1)识别组织机构业务开展过程中应遵循的个人隐私保护、数据安全保护等关键领域)国内外法规、行业监管规范或标准,以此作为数据脱敏规则必须遵循的原则。

(2)对已识别出的敏感数据执行生命周期(产生、采集、使用、交换、销毁)流程的梳理,明确在生命周期各阶段,用户对数据的访问需求和当前的权限设置情况,分析整理出存在数据脱敏需求的业务场景。例如,在理过程中,会发现存在对敏感数据的访问需求和访问权限不匹配的情况(用户仅需获取敏感数据中部分内容即可,但却拥有对敏感数据内容全部的访权限),因此该业务场景存在敏感数据的脱敏需求。

(3)进一步分析存在数据脱敏需求的业务场景,在“最小够用”的原则下明确待脱敏的数据内容、符合业务需求的脱敏方式,以及该业务的服务水平方面的要求,以便于脱敏规则的制定。

(4)数据脱敏工具应提供扩展机制,从而让用户可根据需求自定义脱敏的方法。

(5)通过数据脱敏工具选择数据脱敏方法时,脱敏工具中应对各类方法的使用进行详细的说明,说明应包括但不限于规则的实现原理、数据引用完整性影响、数语义完整性影响、数据分布频率影响、约束和限制等,以支撑脱敏工具的使用者在选择脱敏方式时做出正确的选择。

(6)应固化常用的敏感数据脱敏规则,例如身份证号、手机号等的常用脱规则,避免数据脱敏项目实施过程中重复定义数据脱敏规则。

3.4 执行脱敏工作

根据已定义的数据脱敏规则、以及数据脱敏工作的流程和数据脱敏工具的运维管理制度,在实际业务运营过程中执行数据脱敏,可包括条数据脱敏和块数据脱敏。条数据脱是对单条数据根据脱敏规则实施脱敏,块数据脱敏是对聚合数据实施脱敏。在日常的脱工作中,监控分析数据脱敏过程的稳定性、以及对业务的影响性,同时对脱敏工作开展定期的安全审计,已发现脱敏工作中存在的安全风险。

在该过程中,可实现以下事项:

(1)支持从数据源克隆数据到新环境(例如从生产环境、备份库克隆数据到新环境),并在新环境中进行脱敏过程的执行;也支持在数据源端直接进行脱敏。

(2)对脱敏任务的管理,可考虑采用自动化管理的方式提升任务管理效率,例如定时、条件设置的方式触发脱敏任务的执行。

(3)执行对脱敏任务的运行监控,关注任务执行的稳定性、以及脱敏任务对业务的影响。

(4)设置专人定期对数据脱敏的相关日志记录进行安全审计,审计应重点关注高权限账号的操作日志和脱敏工作的记录日志:发布审计报告,并跟进审计中发现的例外和异常。

图片

3.5 验证脱敏成效

通过收集、整理数据脱敏工作执行的数据,例如相关监控数据、审计数据,对数据脱敏的前期工作开展情况进行反馈,从而优化相关规程、明确数据脱敏过程中应关注的事项

在该过程中,可实现以下事项:

(1)利用测试工具评估脱敏后数据对应用系统的功能、性能的影响,从而明确对整体业务服务水平的影响:测试负载应尽量保证与生产环境一致,应尽量提供从生产环境克隆数据访问负载到脱敏系统进行回放测试的功能。

(2)根据组织业务发展的情况和脱敏工作执行的反馈,优化数据脱敏工作开展的规程,旨在全组织机构范围内增强数据安全能力并满足合规要求。

  • 6
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

数据分析小兵

你的鼓励将是我创作最大的动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值