数据安全前沿技术敏感数据智能识别

最新推荐文章于 2024-07-15 09:00:00 发布

m0_74079109

最新推荐文章于 2024-07-15 09:00:00 发布

阅读量1.3k

点赞数

文章标签：机器学习聚类算法

本文链接：https://blog.csdn.net/m0_74079109/article/details/127204223

版权

敏感数据智能识别

智能敏感数据识别技术主要应用在文本、图像等非结构化数据类型中。智能敏感识别包括三类智能算法：基于相似度、非监督学习和监督学习。

基于相似度算法可准确检测以文档形式存储的非结构化数据，例如 Word 与 PowerPoint 文件、PDF 文档、财务、并购文档，以及其他敏感或专有信息。首先，手工或者通过感知算法（例如，SimHash）取文档指纹特征，以检测原始文档的已检索部分、草稿或不同版本的受保护文档。第二步进行敏感文件的学习和训练，获得敏感内容的文档时，采用语义分析的技术进行分词，出来需要学习和训练的敏感信息文档的指纹模型，然后利用同样的方法对被测的文档或内容进行指纹抓取，将得到的指纹与训练的指纹进行比对，根据预设的相似度阈值去确认被检测文档是否为敏感信息文档。

基于非监督学习算法，人工无需打标签，进行特征设计与提取，比如敏感图像场景提取目标关键点、文档数据根据语义取特征向量。首先选取 K-means、DBSCAN 等聚类算法其中之一作为训练算法，然后将敏感数据待分类的数目赋为聚类“簇”的个数，将输入的样本数据进行聚类，聚类完成形成不同 “簇”的数据集合，人工对这些“簇”的部分样本进行分析并确定相应“簇”的类别，比如敏感型、非敏感型。

基于监督学习算法需收集一定数量的训练数据（比如文档、图片），同时对数据进行人工打标签，比如敏感 / 非敏感标签（二分类场景）。然后选择相应的监督学习算法，比如支持向量机（SVM）、决策树、随机森林、神经网络等，再对训练数据进行模型训练与调参。训练完成，将输出的模型应用在新的数据进行智能识别与预测，自动化输出数据类型⸺敏感 / 非敏感数据。

在实际应用中，Securiti.ai [17] 和 BigID [19]公司均宣称利用机器学习和聚类算法在大规模数据实现分类，以自动化发现个人数据以及其他敏感数据。但算法的效率、识别精度以及可扩展性仍然是一系列富有挑战性的关键问题。

数据脱敏风险评估

数据脱敏风险评估，是对脱敏的数据的隐私泄露风险进行分析和刻画。其技术主要可分为两类：基于人工抽查的定性判定方法、和通用的评估技术。其中，基于人工抽查的定性判定方法，指的是按照标

最低0.47元/天解锁文章

m0_74079109

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
数据安全前沿技术敏感数据智能识别

另一种是技术性方法，满足“特定门槛”（满足无法识别特定个人且不能复原）的脱敏处理，这意味着数据脱敏（不可逆的脱敏方法）+ 脱敏效果的评估可满足法规要求。第二步进行敏感文件的学习和训练，获得敏感内容的文档时，采用语义分析的技术进行分词，出来需要学习和训练的敏感信息文档的指纹模型，然后利用同样的方法对被测的文档或内容进行指纹抓取，将得到的指纹与训练的指纹进行比对，根据预设的相似度阈值去确认被检测文档是否为敏感信息文档。数据脱敏风险评估，是对脱敏的数据的隐私泄露风险进行分析和刻画。
复制链接

扫一扫