前沿技术赋能企业内部数据安全治理

小结

在用户隐私数据安全
合规场景中,企业采集用户信息或与用户形成交互状态,企业此时需要满足各 类隐私合规要求。对于用户敏感行为的信息采集,比如 GPS 轨迹、输入表情以及浏览行为,为了降低合规性风险,可采取本地化差分技术⸺实现批量用户行为数据的挖掘而不泄露单个的个体隐私信息; 为了更好地满足用户出各项数据权利请求与响应,可采取知识图谱技术,对个人信息进行治理与可视 化。进一步地,应用流程自动化技术可对用户数据权利“请求 -响应”过程进行赋能,一方面可通过 高处理效率从而人工运营成本,另一方面可降低由于响应超时带来的合规性风险。我国《个人信息保护 法(草案)》赋予个人包括知情权、决定权、查询权、更正权、删除权等,同时指出“个人信息处理者 应当建立个人行使权利的申请受理和处理机制”,而在《个人信息安全规范》(GB/T 35273-2020)指 出企业处理用户数据权利请求的时间是 30 天之内。随着我国数据安全法规 -标准体系的完善,可预计 国内用户数据权利响应自动化等隐私合规技术与市场正将逐步形成。

前沿技术

赋能企业内部数据安全治理

本章将聚焦在企业内部数据安全治理场景,首先分析其三个典型的子场景合规性
要求与安全挑战, 后续将从应对的三种前沿技术,包括敏感数据智能识别、数据脱敏风险评估、用户实体行为分析,进行 技术原理、行业应用、以及未来发展的介绍与探讨。

数据安全场景与挑战

本节将分析用户隐私数据安全合规的三个子场景面临的合规性条款,以及安全挑战。

敏感数据的智能识别 / 分类

敏感数据识别与分类是数据安全建设与治理的首要环节。如 2.1 节所述,敏感数据来源有三类:➀ 国家敏感数据(也称重要数据);➁ 个人隐私数据;➂ 企业敏感数据。通过对这三类敏感数据类型的 识别与分类,企业更好地实施敏感数据安全管控与保护。

  • 合规条款
  • GDPR:法规保护“个人数据”。其定义的“个人数据”范围十分宽泛(如 1.2 节分析),不仅 包括姓名、年龄、性别等基本个人信息,还包括个人照片、指纹、虹膜、个人的宗教信仰,心 理和生理特征信息以及 IP、Mac、网络 Cookie 等一系列新增类型(第 4 条)。
  • 《网络安全法》:法规保护的网络信息包括两类:“个人信息”和“重要数据”。对于“个人信息”, 它同样蕴含丰富的信息类型,比如个人照片、身份证照片和指纹等(第 76 条)。对于“重要数据”, 《数据安全管理办法》(征求意见稿)进一步给出了示例, “入未公开的政府信息,大面积人 口、基因健康、地理、矿产资源等”。对于不同类型的敏感数据,企业应履行“采取数据分类、 重要数据备份和加密等措施”(第 21 条)。
  • 问题挑战

敏感数据类型多种多样,传统规则和正则匹配不够智能,易出现漏检。对于非结构数据的检测与识别, 如身份证照片、合同文档,传统的检测与识别方法难以应付。

应对技术: 敏感数据智能识别(参见 4.2 节)

脱敏数据的残余风险评估

虽然数据脱敏在企业得到广泛应用,但研究发现脱敏数据仍然或多或少存在残余的隐私风险 [20]。因此,需对脱敏的数据进行风险评估与风险管理,确保风险在企业组织的可控范围之内。

  • 合规条款
  • GDPR:为了应对隐私问题带来的风险的挑战,GDPR指出数据控制者与处理者“应当执行合 的技术措施和有组织性的措施来保证合理应对风险的安全水平”(第 32 条)。
  • 《网络安全法》:“网络运营者应当采取技术措施和其他必要措施,确保其收集的个人信息安全, 防止信息泄露、毁损、丢失”。即要求企业采取一定的技术与管理措施,确保用户个人信息与 隐私安全(第 42 条)。
  • 问题挑战 如何在攻击视角下,对脱敏数据的残余隐私风险进行刻画。 应对技术: 数据脱敏风险评估(参见 4.3 节)
数据操作行为的异常检测

数据库、大数据平台等环境中,如何检测与区分正常和异常操作行为模式,对数据安全的监控与 防护十分关键。
 合规条款

同 4.1.2 节的合规条款。

!问题挑战

普通的规则、阈值无法应对复杂业务带来的挑战。 应对技术: 用户实体行为分析 (UEBA)(参见 4.4 节)

敏感数据智能识别

智能敏感数据识别技术主要应用在文本、图像等非结构化数据类型中。智能敏感识别包括三类智能 算法:基于相似度、非监督学习和监督学习。

基于相似度算法可准确检测以文档形式存储的非结构化数据,例如 Word 与 PowerPoint 文件、PDF 文档、财务、并购文档,以及其他敏感或专有信息。首先,手工或者通过感知算法(例如,SimHash)
取文档指纹特征,以检测原始文档的已检索部分、草稿或不同版本的受保护文档。第二步进行敏感文 件的学习和训练,获得敏感内容的文档时,采用语义分析的技术进行分词,出来需要学习和训练的敏 感信息文档的指纹模型,然后利用同样的方法对被测的文档或内容进行指纹抓取,将得到的指纹与训练 的指纹进行比对,根据预设的相似度阈值去确认被检测文档是否为敏感信息文档。

基于非监督学习算法,人工无需打标签,进行特征设计与提取,比如敏感图像场景提取目标关键点、 文档数据根据语义取特征向量。首先选取 K-means、DBSCAN 等聚类算法其中之一作为训练算法, 然后将敏感数据待分类的数目赋为聚类“簇”的个数,将输入的样本数据进行聚类,聚类完成形成不同 “簇”的数据集合,人工对这些“簇”的部分样本进行分析并确定相应“簇”的类别,比如敏感型、非 敏感型。

基于监督学习算法需收集一定数量的训练数据(比如文档、图片),同时对数据进行人工打标签, 比如敏感 / 非敏感标签(二分类场景)。然后选择相应的监督学习算法,比如支持向量机(SVM)、决 策树、随机森林、神经网络等,再对训练数据进行模型训练与调参。训练完成,将输出的模型应用在新 的数据进行智能识别与预测,自动化输出数据类型⸺敏感 / 非敏感数据。

在实际应用中,Securiti.ai [17] 和 BigID [19]公司均宣称利用机器学习和聚类算法在大规模数据实现分 类,以自动化发现个人数据以及其他敏感数据。但算法的效率、识别精度以及可扩展性仍然是一系列富 有挑战性的关键问题。

参考资料

绿盟 2020 数据安全前沿技术研究报告

友情链接

GB-T 20979-2019 信息安全技术 虹膜识别系统技术要求

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值