在大数据环境下,通过个人用户网络活动产生的数据,可以清晰地分析出用户的年龄、职业、行为规律和兴趣爱好。特别是随着电子商务和移动网络的应用和普及,个人用户的地址、联系方式和银行账户信息也可以通过大数据挖掘或网络爬虫等手段获取。因此,个人信息安全管理压力增大,用户个人信息泄露事件时有发生。莫名其妙的销售电话、诈骗电话和银行存款被盗等违法行为屡屡被禁止。因此,作为数据人,我们有必要了解大数据下个人信息安全的关键技术,为个人信息安全提供保障。
近日,央行发布了《中国人民银行业务领域数据安全管理办法》征求意见稿(以下称《管理办法》),以部门规范性文件的方式,全面衔接《数据安全法》,细化明确中国人民银行业务领域数据安全合规底线要求。我们作为一家以金融为核心业务的公司,如何进行落实是摆在数据治理团队重要课题。
1.分类分级
《管理办法》强调数据处理者应当建立数据分类分级制度规程,规范分类分级工作操作规程;参考行业标准,根据业务开展情况建立业务分类,梳理细化数据资源目录,标识各数据项是否为个人信息、数据来源(生产经营加工产生、外部收集产生等)、存储该数据项的信息系统清单和应用的业务类别。
《管理办法》还进一步提出了数据敏感性分层级、数据可用性分层级的具体分级要求。在数据分级要求方面,数据按照精度、规模和对国家安全的影响程度,分为一般、重要、核心三级。在数据分级基础上,数据处理者应当参考行业标准,将数据项敏感性从低至高进一步分为一至五共五个层级。
数据分类分级是数据精细化防护以及数据价值提升的基础性工程。
我们为此制定并发布了数据分类分级标准,明确了从L1~L4四级数据管理机制,并通过星图元数据系统进行统一打标和管理,通过长安系统自动化周期性扫描数据资产,针对不同安全等级的数据采用适配严格的数据应用审批流程,事后对于敏感数据的权限、操作、流向等进行监控,实现了企业数据分类分级闭环管理。
2.数据使用安全管控
《管理办法》强调数据处理者应当按照最小必要和职责分离原则,严格管理信息系统各类业务处理账号、数据库管理员等特权账号的设立和权限,鼓励建设技术平台,采取统一认证、统一授权策略进一步加强管控。并建立统一的日志规范,明确数据处理活动日志应当完整记录的溯源所需信息。
《管理办法》还进一步提出了涉及第三层级以上数据项导出使用的风险防范措施,原则上应当优先采取加密、数字水印或者脱敏处理等安全保护措施。信息系统界面展示第三层级以上数据项时,原则上应当优先实施脱敏处理后再展示。数据处理者应当建立终端设备安全管控策略,鼓励针对使用第三层级以上数据项的终端,采取安全沙箱、终端行为管控等安全保护措施。
我们通过分析数据生命周期中的安全风险,提出了相应的技术措施。数据生命周期包括数据采集、数据传输、数据存储、数据处理、数据交换和数据销毁等阶段。在数据采集阶段,数据收集方要防止个人信息主体未经授权收集和非法获取数据,个人信息拥有者要防止未经授权收集。在数据传输阶段,对个人信息数据传输过程中的安全政策实施情况进行监控,防止敏感数据泄露和传输过程中可能发生的数据传输双方的身份否认。在数据存储阶段,保证数据存储的安全性。可以采用数据脱敏或加密的方式,保证数据存储安全,尽量减少敏感数据内容。在数据处理阶段,只有合法人员才能看到合法数据,未授权用户无法看到未授权的个人信息数据。在数据交换阶段,数据的转移和共享过程要有明确的记录和审批流程,了解数据的流动过程。在数据销毁阶段,为避免信息消除不完全导致的数据泄露,如果无法恢复原始数据,应对数据进行强制擦除或脱敏处理。在数据生命周期的每个阶段,都需要对网络进行保护技术。生命周期阶段与防护技术之间的关系是多对多的,即一个阶段对应多种技术,一种技术在多个阶段提供安全防护。大数据中个人信息的生命周期与防护技术的对应关系如图1所示。
图 1 大数据中个人信息的生命周期和保护技术
对于图1所示的大数据中个人信息生命周期与保护技术的对应关系,每种数据保护技术对应一个或多个生命周期阶段。“安全审计”对应6个生命周期阶段。访问控制“对应五个生命周期阶段”。“授权”、“可追溯性审计”和“数据脱敏”分别对应于四个生命周期阶段。堵漏”和“地域限制”分别对应3个生命周期阶段。数据加密“对应两个生命周期阶段”。数据备份”和“安全擦除”分别对应一个生命周期阶段。对应4个以上或等于4个生命周期阶段的数据保护技术被定义为关键技术。因此,本文重点对大数据下个人信息安全保护的关键技术包括“授权”、“访问控制”、“安全审计”、“可追溯性审计”和“数据脱敏”进行阐述。
2.1授权
许可证是一种业务部署,其中一个人允许另一个人使用其产品、服务或某些信息。个人可以是个人、单位、组织、公司、企业等。许可的具体内容是基于双方在平等自愿的基础上达成的共识,也需要适应法律内容的相关规定。
大数据应用领域常用的许可证有三种:一是认证技术。在计算机和网络系统中确认操作者的身份,从而判断用户是否具有访问某一资源和使用权限,使计算机和网络系统的访问策略能够可靠地执行。防止攻击者冒充合法用户获取资源访问权限,保证系统和数据的安全,保障授权访问者的合法利益。其次是kerberos协议,它通过密钥系统为客户端/服务器应用程序提供认证服务。认证过程的实现不依赖于主机操作系统的认证,不需要基于主机地址的信任,不需要网络上所有主机的物理安全,并假定在网络上传输的数据包可以任意读取、修改和插入。第三,多租户,这是一种软件架构技术,在多用户环境中共享相同的系统或程序组件,同时仍然保证用户之间的数据隔离。
2.2访问控制
访问控制策略是对可能发生的非法操作的安全措施,是阻止、控制和报警非法操作的基础。与传统控制方法的访问标准不同,大数据访问控制具有一定的灵活性,可以在不同的访问环境下快速调整标准,以满足访问控制模型的敏感性要求。访问限制策略规定了平台允许访问的时间范围和IP地址段。不允许访问的范围内的所有访问都将被拒绝。访问控制由代理执行。代理服务是大数据平台非常重要的组成部分,也是用户访问大数据系统的必经之路。接入的认证、控制、认证、操作记录都是由代理完成的。
API访问代理是一个实际向大数据平台发送操作请求的组件。用户在门户大数据平台上的所有操作都由代理转发,执行前由代理判断操作是否授权。未经授权,不执行操作,通过门户提示用户。同时,代理会分析操作内容是否包含敏感数据。如果内容包含敏感数据,代理根据预先设定的敏感数据访问策略,阻止或允许该请求。座席服务接收管理平台配置的用户权限信息,根据权限信息判断用户权限,控制用户对大数据平台的访问。用户通过统一接入门户访问大数据平台,统一视图将具体操作请求转发给代理服务。如果用户没有操作权限,代理服务会阻断访问请求。如果用户拥有相关操作权限,代理服务将访问操作转发给相应的大数据平台组件,并将访问操作结果返回给用户。
2.3数据脱敏
数据脱敏是通过脱敏规则将一些敏感信息进行转换,实现对敏感隐私数据的可靠保护。其实质是在大型数据库中收集大量的原始样本,并进行筛选。在涉及客户安全数据或一些商业敏感数据的情况下,在不违反系统规则的情况下,将真实数据进行转化,提供供测试使用,包括身份证号码、手机号码、卡号、客户姓名等个人信息。数据脱敏由数据脱敏管理平台完成,架构如图2所示。
数据脱敏技术大致可以分为两类:静态数据脱敏和动态数据脱敏。静态数据脱敏一般是在非实时访问数据上进行的。脱敏前,统一设定脱敏策略,将脱敏结果导入新的文件或数据库。数据脱敏工具对静态数据进行全扫描,利用采样后形成的敏感数据特征库对数据进行匹配脱敏。动态数据脱敏一般是指对所访问的数据或数据流进行脱敏。脱敏规则可以实时修改。脱敏只针对数据脱敏工具传递的数据,脱敏结果会显示给用户。在静态脱敏的基础上,探索及时脱敏技术,扩展结构化数据,探索非结构化数据的动态脱敏,包括大型数据库平台和文本文件,。
数据脱敏会导致运维成本增加。企业需要根据实际情况设定现实的脱敏目标。脱敏技术包括敏感信息字段、敏感信息名称、敏感级别或敏感类型等,这些都必须在数据脱敏时确定,以确保更好地为客户服务。脱敏策略统称为脱敏规则、规范、脱敏方法和脱敏限制。首先,用户需要制定敏感数据的脱敏规则,这可以借助数据和用户全局,以及个人设置来实现。脱敏规范实际上要求用户在脱敏工作中,必须遵循相关规范和相关法律,最终使管理更加方便,或者进一步提高安全性。
图 2 数据脱敏管理平台架构
3. 风险监测、评估审计与事件处置
《管理办法》强调数据处理者应当建立数据处理活动安全风险监测和告警机制,加强数据安全风险情报监测、核查、处置与行业共享,制定数据安全事件定级判定标准和应急预案,规范应急演练、事件处置、风险评估和审计等工作。
《管理办法》进一步提出数据处理者应当细化管控数据安全风险评估人员和审计人员使用数据的权限,并采取有效措施确保实施过程安全。鼓励数据处理者建立技术平台,统一建立数据安全风险评估与审计的安全管控策略。
我们可以通过安全审计和溯源审计全面采集用户使用数据的行为、数据安全等级、人员信息、权限分配等链路监控信息,构建数据安全态势感知能力,当发现有账号、接口、数据访问行为、数据复制截屏、数据导出风险时,根据相应的告警规则发出告警提示,并且可以展示触发告警的账号、告警内容,以及该账号之前的全部操作,从而可以对该账号进行风险追踪溯源。
3.1安全审计
大数据审计是指审计机关遵循大数据理念,运用大数据技术手段和工具,利用海量来源分散、格式多样的经济社会运行数据,进行跨层次、跨区域、跨系统、跨部门、跨业务的深度挖掘和分析,以提高审计发现问题、评价问题和宏观分析的能力。与数据审计相比,大数据审计使用的数据源更加异构,采用的技术方法更加复杂和先进,对数据的洞察更加敏锐和深刻。
大数据时代,安全审计发生了根本性的变化,从抽样分析到全数据分析,从发现事物的因果关系到利用事物的相关性,从追求数据的准确性到提高数据使用效率。在利用大数据技术进行安全审计的过程中,需要对大量数据进行分析和收集,以保证异构数据处理的质量。利用大数据技术构建安全审计体系,优化了以下几点:提升了存储、采集、分析能力。提升处理非结构化数据的能力。更深入分析历史信息数据,从大量数据中挖掘出对用户有价值的信息。
基于日志的审计方法主要结合Hadoop组件日志和元数据进行组合分析。在大数据平台不感知的情况下,还原用户的操作。对应的日志文件采集器部署在大数据平台的服务器上,没有深入分析日志数据并对服务器施加相对较小的负载。然而,这种方法依赖于日志记录的准确性。
网络流量审计通过对进出服务器的网络流量数据进行收集、过滤和分析,还原用户的操作。网络流量数据可以通过深度包检测技术进行采集和分析,这是一种基于应用层的流量检测和控制技术。当IP数据包、TCP或UDP数据流通过基于DPI技术的带宽管理系统时,通过读取IP数据包负载内容来重组OSI七层协议的应用层信息,从而得到整个应用程序的内容。然后根据系统定义的管理策略进行流量整形。因为这种模式需要网络数据包的捕获和分析,实施起来非常困难,而且还会增加服务器的负载。
3.2溯源审计
溯源审计是找出数据产品的演化过程,形成能够准确表达数据特征和对象历史的元数据,为数据密集型系统中复杂数据的分析和理解提供结构化指导。溯源审计关注的是数据密集型系统中的数据源检测、数据的创建和传播过程。通过记录数据产品的派生过程信息和工作流演化过程,形成包含对象历史信息、准确表达数据特征的元数据,呈现结构化数据,促进信息披露和可操作信息的派生。对大数据系统中的复杂数据进行分析和理解具有重要价值。
溯源信息采集技术包括溯源采集、溯源要素和溯源模型三个方面。溯源采集关注如何从对象系统中采集溯源信息,包括采集强度、采集方法、采集时间和数据版本控制。溯源要素在采集到不同终端的可靠数据后,主要解决溯源信息中应该包含哪些关键数据,并对不同来源的数据进行汇总,形成标准化数据。溯源模型是对规范化数据的形式化描述。借助溯源模型,可以从规范化数据中依次挖掘出数据之间的相关性,实现规范化数据与结构化数据之间的映射,将结构化数据呈现并持久化,促进可操作信息的信息披露和推导。
3.3事件处置
事件处置是一种管理机制,包括对数据安全风险进行监测与预警、应急处置以及事后的调查与评估。对于个人信息泄漏事件,首先要判断个人信息泄露的基本情况,并从IT层面排查泄露原因,采取措施进行安全加固,根除事件原因。
相关业务部门从业务层面排查泄露原因,如有不合规操作、不合理流程导致数据泄露,及时进行整改。
公关部门确定个人信息泄露事件披露口径,并组织相关部门进行个人信息泄露事件披露;公司法务酌情向监管机关上报个人信息泄漏事件相关情况;客服部门按照公关口径,对客服来电进行咨询安全事件的相关问题进行一致回答;通过群发客户短信的形式,向个人信息主体通告个人信息泄露情况;相关业务研发团队按照公关口径,在系统上更新个人信息泄露情况公告;风险管理部门对于违法行为,向公安机关报案并追究相关人员法律责任。
4. 总结
在个人信息完全数据化的新时代,随着大数据技术的发展,安全问题日益突出。网络世界中个体活动越多,产生的数据也就越多,在个人信息集合中可以挖掘到的资源和资源价值也就越多。央行发布的《管理办法》聚焦金融行业个人信息安全风险,通过数据分类分级加强资产掌控能力,明确覆盖数据全生命周期的管理及技术要求,强化内生安全能力,结合评估、处置、审计措施,实现数据安全体系工作的持续迭代优化。在衔接已有法规标准的基础上,切实保障金融行业数据安全工作有序开展。《管理办法》既体现了金融行业监管部门对行业数据安全建设工作的深度观察,也是从合规层面体系化推进数据安全建设路径,对金融行业数据处理者的实践工作具有重大意义。我们有些方面采用了比较先进的技术,取得了一定的成效,比如,分类分级和访问控制;但是有些方面还需要加强,比如,授权、溯源审计等。希望本文能够起到推动个人信息安全保护关键技术应用的进程,提高数据安全系数,保障用户个人信息安全,营造合规的数据共享使用环境,促进数据资产价值发挥。
参考文献
[1] 落实《中国人民银行业务领域数据安全管理办法》,极盾科技是怎么做的.https://www.sohu.com/a/708329020_121292904
作者:京东科技 李然辉
来源:京东云开发者社区 转载请注明来源