前沿技术赋能企业内部数据安全治理

最新推荐文章于 2023-05-06 16:20:49 发布

m0_73803866

最新推荐文章于 2023-05-06 16:20:49 发布

阅读量141

点赞数

文章标签：人工智能知识图谱

本文链接：https://blog.csdn.net/m0_73803866/article/details/127564899

版权

小结

在用户隐私数据安全
合规场景中，企业采集用户信息或与用户形成交互状态，企业此时需要满足各类隐私合规要求。对于用户敏感行为的信息采集，比如 GPS 轨迹、输入表情以及浏览行为，为了降低合规性风险，可采取本地化差分技术⸺实现批量用户行为数据的挖掘而不泄露单个的个体隐私信息；为了更好地满足用户出各项数据权利请求与响应，可采取知识图谱技术，对个人信息进行治理与可视化。进一步地，应用流程自动化技术可对用户数据权利“请求 -响应”过程进行赋能，一方面可通过高处理效率从而人工运营成本，另一方面可降低由于响应超时带来的合规性风险。我国《个人信息保护法（草案）》赋予个人包括知情权、决定权、查询权、更正权、删除权等，同时指出“个人信息处理者应当建立个人行使权利的申请受理和处理机制”，而在《个人信息安全规范》（GB/T 35273-2020）指出企业处理用户数据权利请求的时间是 30 天之内。随着我国数据安全法规 -标准体系的完善，可预计国内用户数据权利响应自动化等隐私合规技术与市场正将逐步形成。

前沿技术

赋能企业内部数据安全治理

本章将聚焦在企业内部数据安全治理场景，首先分析其三个典型的子场景合规性
要求与安全挑战，后续将从应对的三种前沿技术，包括敏感数据智能识别、数据脱敏风险评估、用户实体行为分析，进行技术原理、行业应用、以及未来发展的介绍与探讨。

数据安全场景与挑战

本节将分析用户隐私数据安全合规的三个子场景面临的合规性条款，以及安全挑战。

敏感数据的智能识别 / 分类

敏感数据识别与分类是数据安全建设与治理的首要环节。如 2.1 节所述，敏感数据来源有三类：➀ 国家敏感数据（也称重要数据）；➁ 个人隐私数据；➂ 企业敏感数据。通过对这三类敏感数据类型的识别与分类，企业更好地实施敏感数据安全管控与保护。

合规条款
GDPR：法规保护“个人数据”。其定义的“个人数据”范围十分宽泛（如 1.2 节分析），不仅包括姓名、年龄、性别等基本个人信息，还包括个人照片、指纹、虹膜、个人的宗教信仰，心理和生理特征信息以及 IP、Mac、网络 Cookie 等一系列新增类型（第 4 条）。
《网络安全法》：法规保护的网络信息包括两类：“个人信息”和“重要数据”。对于“个人信息”，它同样蕴含丰富的信息类型，比如个人照片、身份证照片和指纹等（第 76 条）。对于“重要数据”，《数据安全管理办法》（征求意见稿）进一步给出了示例， “入未公开的政府信息，大面积人口、基因健康、地理、矿产资源等”。对于不同类型的敏感数据，企业应履行“采取数据分类、重要数据备份和加密等措施”（第 21 条）。
问题挑战

敏感数据类型多种多样，传统规则和正则匹配不够智能，易出现漏检。对于非结构数据的检测与识别，如身份证照片、合同文档，传统的检测与识别方法难以应付。

应对技术： 敏感数据智能识别（参见 4.2 节）

脱敏数据的残余风险评估

虽然数据脱敏在企业得到广泛应用，但研究发现脱敏数据仍然或多或少存在残余的隐私风险 [20]。因此，需对脱敏的数据进行风险评估与风险管理，确保风险在企业组织的可控范围之内。

合规条款
GDPR：为了应对隐私问题带来的风险的挑战，GDPR指出数据控制者与处理者“应当执行合的技术措施和有组织性的措施来保证合理应对风险的安全水平”（第 32 条）。
《网络安全法》：“网络运营者应当采取技术措施和其他必要措施，确保其收集的个人信息安全，防止信息泄露、毁损、丢失”。即要求企业采取一定的技术与管理措施，确保用户个人信息与隐私安全（第 42 条）。
问题挑战 如何在攻击视角下，对脱敏数据的残余隐私风险进行刻画。 应对技术： 数据脱敏风险评估（参见 4.3 节）

数据操作行为的异常检测

在数据库、大数据平台等环境中，如何检测与区分正常和异常操作行为模式，对数据安全的监控与防护十分关键。
　合规条款

同 4.1.2 节的合规条款。

!问题挑战

普通的规则、阈值无法应对复杂业务带来的挑战。 应对技术： 用户实体行为分析（UEBA）（参见 4.4 节）

敏感数据智能识别

智能敏感数据识别技术主要应用在文本、图像等非结构化数据类型中。智能敏感识别包括三类智能算法：基于相似度、非监督学习和监督学习。

基于相似度算法可准确检测以文档形式存储的非结构化数据，例如 Word 与 PowerPoint 文件、PDF 文档、财务、并购文档，以及其他敏感或专有信息。首先，手工或者通过感知算法（例如，SimHash）
取文档指纹特征，以检测原始文档的已检索部分、草稿或不同版本的受保护文档。第二步进行敏感文件的学习和训练，获得敏感内容的文档时，采用语义分析的技术进行分词，出来需要学习和训练的敏感信息文档的指纹模型，然后利用同样的方法对被测的文档或内容进行指纹抓取，将得到的指纹与训练的指纹进行比对，根据预设的相似度阈值去确认被检测文档是否为敏感信息文档。

基于非监督学习算法，人工无需打标签，进行特征设计与提取，比如敏感图像场景提取目标关键点、文档数据根据语义取特征向量。首先选取 K-means、DBSCAN 等聚类算法其中之一作为训练算法，然后将敏感数据待分类的数目赋为聚类“簇”的个数，将输入的样本数据进行聚类，聚类完成形成不同 “簇”的数据集合，人工对这些“簇”的部分样本进行分析并确定相应“簇”的类别，比如敏感型、非敏感型。

基于监督学习算法需收集一定数量的训练数据（比如文档、图片），同时对数据进行人工打标签，比如敏感 / 非敏感标签（二分类场景）。然后选择相应的监督学习算法，比如支持向量机（SVM）、决策树、随机森林、神经网络等，再对训练数据进行模型训练与调参。训练完成，将输出的模型应用在新的数据进行智能识别与预测，自动化输出数据类型⸺敏感 / 非敏感数据。

在实际应用中，Securiti.ai [17] 和 BigID [19]公司均宣称利用机器学习和聚类算法在大规模数据实现分类，以自动化发现个人数据以及其他敏感数据。但算法的效率、识别精度以及可扩展性仍然是一系列富有挑战性的关键问题。

参考资料

绿盟 2020 数据安全前沿技术研究报告

友情链接

GB-T 20979-2019 信息安全技术虹膜识别系统技术要求

m0_73803866

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
前沿技术赋能企业内部数据安全治理

第二步进行敏感文件的学习和训练，获得敏感内容的文档时，采用语义分析的技术进行分词，出来需要学习和训练的敏感信息文档的指纹模型，然后利用同样的方法对被测的文档或内容进行指纹抓取，将得到的指纹与训练的指纹进行比对，根据预设的相似度阈值去确认被检测文档是否为敏感信息文档。因此，需对脱敏的数据进行风险评估与风险管理，确保风险在企业组织的可控范围之内。要求与安全挑战，后续将从应对的三种前沿技术，包括敏感数据智能识别、数据脱敏风险评估、用户实体行为分析，进行技术原理、行业应用、以及未来发展的介绍与探讨。
复制链接

扫一扫