文|宙斯盾流量安全分析团队
晨晨、彦修
背景
企业数据包含着用户个人信息、隐私信息、商业敏感数据等,一旦泄漏,会给企业带来巨大的经济损失,甚至承担相关法律责任和巨额罚款。因此,如何保障企业存储的各类敏感数据的安全,成为企业信息安全工作的重中之重。
笔者所在的团队是基于流量来进行安全分析建设工作的,针对敏感信息的防护场景主要分为两个,第一个是针对疑似外部批量拖取数据的监控,包括利用常见的越权漏洞、注入漏洞等;第二部分则是针对业务数据脱敏情况监控,主要是发现业务的疑似未脱敏风险并及时推进处理。
传统的敏感信息检测方式基本采用关键字或正则去匹配响应中的敏感信息,如未脱敏手机号,这些主要依赖安全运营人员的经验,误报率和漏报率都比较多。此外,项目运营初期,精力和资源也较为有限,如何优先跟进处理中高风险事件也是团队比较关注的问题。基于以上原因,我们利用机器学习实现了一种快速且高度自动化的敏感数据治理方案,该方案可以实现对敏感信息的检测、分类、分级运营等目标。
传统 VS AI
现有的敏感信息检测依赖经验知识,通过经验指定敏感关键字或正则对响应内容进行匹配,从而筛选出敏感信息,规则不全将导致漏报。同时,根据命中的关键字不同,划分至不同的敏感信息类型