基于机器学习的敏感信息泄露治理探索

本文介绍了基于机器学习的敏感信息泄露治理方案,包括敏感信息识别、分类和分级,以解决传统关键字匹配方法的误报和漏报问题。通过TF-IDF算法挖掘敏感关键字,使用多个分类模型进行敏感信息分类,以及利用word2vec和k-means进行威胁分级,以实现自动化和精确的敏感数据治理。
摘要由CSDN通过智能技术生成

|宙斯盾流量安全分析团队

晨晨、彦修

背景

企业数据包含着用户个人信息、隐私信息、商业敏感数据等,一旦泄漏,会给企业带来巨大的经济损失,甚至承担相关法律责任和巨额罚款。因此,如何保障企业存储的各类敏感数据的安全,成为企业信息安全工作的重中之重。

笔者所在的团队是基于流量来进行安全分析建设工作的,针对敏感信息的防护场景主要分为两个,第一个是针对疑似外部批量拖取数据的监控,包括利用常见的越权漏洞、注入漏洞等;第二部分则是针对业务数据脱敏情况监控,主要是发现业务的疑似未脱敏风险并及时推进处理。

传统的敏感信息检测方式基本采用关键字或正则去匹配响应中的敏感信息,如未脱敏手机号,这些主要依赖安全运营人员的经验,误报率和漏报率都比较多。此外,项目运营初期,精力和资源也较为有限,如何优先跟进处理中高风险事件也是团队比较关注的问题。基于以上原因,我们利用机器学习实现了一种快速且高度自动化的敏感数据治理方案,该方案可以实现对敏感信息的检测、分类、分级运营等目标。

传统 VS AI

现有的敏感信息检测依赖经验知识,通过经验指定敏感关键字或正则对响应内容进行匹配,从而筛选出敏感信息,规则不全将导致漏报。同时,根据命中的关键字不同,划分至不同的敏感信息类型࿰

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值