敏感数据智能识别

本文探讨了智能敏感数据识别技术,涉及基于相似度、无监督和监督学习的三种算法。文章介绍了各方法的工作原理,并提到Securiti.ai和BigID公司的实践案例。核心关注点在于算法效率、识别精度及扩展性问题。
摘要由CSDN通过智能技术生成

 敏感数据智能识别

智能敏感数据识别技术主要应用在文本、图像等非结构化数据类型中。智能敏感识别包括三类智能

算法:基于相似度、非监督学习和监督学习。

基于相似度算法可准确检测以文档形式存储的非结构化数据,例如 Word PowerPoint 文件、PDF 文档、财务、并购文档,以及其他敏感或专有信息。首先,手工或者通过感知算法提取文档指纹特征,以检测原始文档的已检索部分、草稿或不同版本的受保护文档。第二步进行敏感文件的学习和训练,获得敏感内容的文档时,采用语义分析的技术进行分词,提出来需要学习和训练的敏感信息文档的指纹模型,然后利用同样的方法对被测的文档或内容进行指纹抓取,将得到的指纹与训练的指纹进行比对,根据预设的相似度阈值去确认被检测文档是否为敏感信息文档。

基于无监督学习算法,人工无需打标签,进行特征设计与提取,比如敏感图像场景提取目标关键点、文档数据根据语义提取特征向量。首先选取 K-means、DBSCAN 等聚类算法其中之一作为训练算法,然后将敏感数据待分类的数目赋为聚类“簇”的个数,将输入的样本数据进行聚类,聚类完成形成不同“簇”的数据集合,人工对这些“簇”的部分样本进行分析并确定相应“簇”的类别,比如敏感型、非敏感型。

基于监督学习算法需收集一定数量的训练数据(比如文档、图片),同时对数据进行人工打标签,
比如敏感 / 非敏感标签(二分类场景)。然后选择相应的监督学习算法,比如支持向量( SVM )、决策树、随机森林、神经网络等,再对训练数据进行模型训练与调参。训练完成,将输出的模型应用在新的数据进行智能识别与预测,自动化输出数据类型--敏感 / 非敏感数据。
在实际应用中, Securiti.ai 和 BigID 公司均宣称利用机器学习和聚类算法在大规模数据实现分
类,以自动化发现个人数据以及其他敏感数据。但算法的效率、识别精度以及可扩展性仍然是一系列富有挑战性的关键问题。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

wang_angela01

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值