前言
管理敏感数据是现代数据治理的核心。无论您是在应对GDPR和CCPA的复杂问题,还是需要负责任地向他人授权数据访问,制定一个关于标记敏感数据的策略是至关重要的。
DataHub流行的业务词汇表是一种强大的方法,可以对PII(个人身份信息)和合规类型进行建模,并对数据堆栈中的数据实体进行分类。除了手动分配这些分类外,DataHub现在可以在摄取阶段自动对敏感数据或PII进行分类和标记,使数据发现和访问变得简单、可扩展和安全。
DataHub中的PII分类是什么样的
DataHub的自动PII分类在摄取过程中识别敏感列及包含这些列的表,因此这些列会自动与预定义的与PII相关的词汇表术语关联起来。
目前,DataHub的自动PII检测功能用于检测包括全名、性别、电子邮件、电话、街道地址、信用卡号、社会安全号码(SSN)、驾驶执照号码、国际银行帐号(IBAN)、银行SWIFT代码和IP地址在内的信息类型。
TLDR:DataHub的自动PII分类如何工作
简而言之,这个可选择的功能在列级别分析您的元数据,为每列标记与PII相关的词汇表术语(信息类型)。
在摄取过程中,DataHub的PII检测模块分析每一列是否包含信息类型,方法如下:
- 检查是否存在特定因素(称为预测因素)。
- 为每个预测因素分配可配置的权重。
- 计算信息类型存在的总体置信水平/分数。
- 如果分数超过您设置的置信水平阈值,则为该列建议相关的信息类型作为词汇表术语。
作为DataHub管理员,您完全掌控以下内容:
- 启用PII分类功能
- 决定要处理的信息类型
- 设置信息类型的自动分类的置信水平阈值
DataHub的PII分类工作流程详解
DataHub的分类器实现使用一个独立的库来预测PII信息类型。它使用以下因素(称为预测因素)来提出适用于每列的信息类型:
- 名称
- 描述
- 数据类型
- 值
使用简单的基于规则的匹配和Spacy(或其他常见的ML库)等库来检测每个预测因素的存在,并为每个预测因素的存在分配置信度分数。
然后,该模块使用这些不同置信度分数的可自定义的加权组合来计算一个决定所提出的信息类型是否适用于该列的总体级别。您可以配置每个预测因素的权重,以控制它对最终值的影响。
生成的分数与可配置的阈值进行比较(默认配置使用阈值为0.7),以确定是否应将信息术语应用于该列。
配置分类信息类型
作为DataHub管理员,您可以自定义YAML recipe文件,以配置在摄取过程中如何自动分类每种信息类型。
您只需要根据您的用例配置以下参数:
- 预测因素权重 - 用于计算信息类型分类分数的每个预测因素的权重
- 名称 - 用于与列名称匹配的正则表达式列表
- 描述 - 用于与列描述匹配的正则表达式列表
- 数据类型 - 用于与列数据类型匹配的数据类型
- 预测类型 - 正则表达式或库
- 正则表达式 - 用于与列值匹配的正则表达式列表
- 库 - 用于评估列值的库名称
以下是一个示例:
使用DataHub的PII分类模块
要使用分类功能,您只需要将分类部分添加到 recipe 文件中并启用它。
以下是一个示例,演示了如何根据您设置的标准和置信度阈值来自定义和配置您的 recipe 文件,以自动对“电子邮件”信息类型进行分类。
了解如何使用更高级的配置来配置您的信息类型,请查看我们的分类功能指南。
接下来呢?
DataHub的PII分类功能目前仅适用于Snowflake;我们很高兴将其扩展到其他基于SQL的数据源,并渴望听取社区的反馈,以了解我们如何改进集成体验。
我们正在寻找贡献者 - 加入DataHub社区,一起实现这个目标!