论文研读：Towards Automated Regulation Analysis for Effective Privacy Compliance

vidi19

已于 2024-09-09 08:57:22 修改

阅读量845

点赞数 22

文章标签：机器学习网络安全

于 2024-09-09 08:55:55 首次发布

本文链接：https://blog.csdn.net/vidi19/article/details/142043201

版权

论文信息

标题：Towards Automated Regulation Analysis for Effective Privacy Compliance

作者：Sunil Manandhar, Kapil Singh, Adwait Nadkarni

年份：2024年

会议：Network and Distributed System Security (NDSS)

研究机构：IBM T.J. Watson Research Center

主要内容：为解决手动分析隐私法规耗时且容易出错的问题，本文提出了一种名为ARC（Automated Representation and querying for privacy regulation Compliance）的方法，可将非结构化的法规文本转换为结构化的、保留上下文信息的元组形式。同时开发了ARCBert模型，用于识别法规中语义上相似的短语，从而简化比较不同法规的过程。此外，文中扩展了ARC以评估隐私政策的合规性，通过与法规要求进行对比，识别出隐私政策中的缺失披露项。

1.问题分析

随着相关政策法规的颁布与逐步完善，分析政策文本存在着巨大挑战，具体表现为两方面：

法律专用术语难以理解：不同的法规使用特定于自身的法律术语，必须了解每项法规特有的词汇才能开始分析政策文本。
政策文本表述依赖于上下文：法规陈述通常包含多个上下文信息，即使是表达相同或相似的概念，不同法规中的句子和短语也可能存在显著的表述差异。因此，如何比较法规文本的相似性是一个困难的问题。

2.研究方案

ARC框架旨在将非结构化法规文本转换为元组形式表示，以支持多项法规的相似性分析任务和隐私政策分析任务。其框架结构如图3.1所示。

图3.1　ARC框架图

总体流程：

监管文本语义解析：使用HtmlToPlainText对法规文件进行预处理，获得纯文本。之后，文中运用CONLL2012数据集，使用AllenNLP框架训练BERT模型，通过语义角色标记 (Semantic Role Labeling，SRL) 对法规文本进行argument identification（即识别与动词相关的语义角色）以及verb sense disambiguation（便于准确识别定义元组），从而实现上下文信息的提取。
从短语中提取子句：为简化SRL得到的短语，准确地捕捉到实体相关信息，文中使用 Benepar 模型来获取短语结构树（constituency tree），将短语分解为<Phrase, Clause>形式，解析出提供额外上下文信息的短语，进一步简化语句。
提取ARC 元组：文中将法规文本转换为以下三种元组形式：

Data Flow Tuple：描述隐私数据的流动。使用Contextual Integrity (CI)框架表示为：<Sender, Deontic Modal, Data Flow Verb, Receiver, Data Object, Transmission Principles>。
Definition Tuple：描述法规中使用的术语。表示为：<Definiendum, Definition Verb, Definiens>。
Right Tuple：描述特定实体所有的权利。表示为：<Entity, Deontic Modal, Right Verb, Right Statement>。

映射元组参数：将使用 SRL 模型识别的一般子句和通过成分分析获得的实体特定子句归入传输原则属性。

应用模块：

（1）Multi-Regulation Analysis：通过分析和比较法规中的短语，识别不同法规要求之间的相似性。

（2）Evaluating Privacy Policy Completeness with multiple regulations：将法规声明与隐私政策声明转换为ARC元组，以进行比较，从中识别初隐私政策中缺失的披露项，辅助合规分析。

3.实验评估

1.ARC元组评估

文中使用四个隐私法规（CCPA、GDPR、PIPEDA、VCDPA）构建了数据集。以评估ARC元组的提取效果。

Data Flow Tuple：人工手动标注了992个表达数据流要求的声明作为数据集。实验结果如下图3.2所示，ARC提取元组的F1-score为83.4%。部分失败的原因是由于将数据流动词被当作名词短语，导致遗漏了一些法规语句。

图3.2　 Data Flow Tuple实验结果

Definition Tuple：文中创建了一个包含438 条语句的数据集。将ARC与LexNLP库（评估非结构化法律文本）进行了对比。实验结果如下图3.3所示，ARC 在召回率方面优于 LexNLP，在准确率方面略有逊色。进一步分析表明，带有“include”动词的语句会造成误报。

图3.3　 Definition Tuple实验结果

Right Tuple：文中通过识别包含“right”的语句手动标注了包含141语句的数据集。实验结果如下图3.4所示。ARC提取元组的F1-score为81%。进一步研究发现，ARC 在某些复杂语句中无法识别权利元组。

图3.4　 Right Tuple实验结果

2.多法规分析实验

为了能够在短语级别粒度上比较语句，文中训练了基于 BERT 的模型 ARCBert。ARCBert在训练过程中使用了Phrase-BERT生成短语的嵌入表示。以余弦相似度作为衡量指标。此外，使用Naive Approach（基于关键词的方法）和GloVe（基于词向量的方法）进行对比试验。

文中从ARC识别的数据流元组中筛选了1,134 个短语作为数据集。将每个短语与单独法规中的短语列表进行比较，并报告相似度得分。PIPEDA与GDPR的对比结果如图3.5所示。结果表明 ARCBert 在识别相似短语方面优于GloVe，这是因为ARCBert更为严格，能够更准确地为在相似上下文中使用的短语分配更高的相似度评分，而GloVe则因为将词汇相似性而错误地标记为相似，显得有些宽松。

图3.5　 PIPEDA与GDPR的相似性得分

此外，为进一步验证ARCBert在识别相似短语方面的准确性，文中构建了一个包含100个短语的评估数据集，对于每个短语，使用ARCBert提取与之相似度超过0.75的前三个短语，最终形成了包含237个短语的数据集，之后让两个人进行相似度的二元标注。实验结果显示，在226个评估实例中，186（82.30%）个短语被两位评估者一致认为是相似的，在100个短语中，评估者至少在87个案例中标记了一个短语为相似，这表明ARCBert 能够识别不同法规中的相似短语。

3.基于Definition Tuple的法规分析

通过比较Definition Tuple也可进行法规相似性分析。因此，作者从CCPA、GDPR、VCDPA和PIPEDA中提取定义Definition Tuple。之后比较各条例之间的definition tuple（重点关注得分高于0.75的部分），并根据相似度得分进行排序。实验结果如图3.6所示。可见CCPA与VCDPA之间的相似性最高，而PIPEDA与其他法规的相似性最低。这表明ARC 可用于了解法规之间的相似性。

图3.6　基于Definition Tuple的相似性分析结果

图3.7展示了各法规最相似的前 3 个术语。由于ARC 能够精确地识别语义上相似的定义术语，因此可识别出人工对比方法可能遗漏的相似定义术语。此外，这个实验说明ARC可用于发现不同法规中相似的术语，识别隐私法规之间的差异，从而增进对法规的理解。

图3.7　各法规中最相似的 3 个定义

4.方法普适性分析

文中在16 个额外的隐私法规上运行 ARC，主要探究ARC在提取元组和分析识别相似短语这两方面的表现。

（1）提取元组的效果：实验结果如图3.8所示，可见ARC能够从多样化的法规中一致地提取ARC元组。

（2）识别相似短语：使用k-means算法对所有20个法规（包括之前的4个法规）中提取的短语进行聚类。首先，获取每个语义角色（SRL）参数的短语列表，并将较长的短语拆分为更小的组成部分。然后，利用ARCBert模型输出的phrase embeddings进行k-means聚类，并使用Gap Statistic算法估计聚类数量。最后，使用BerTopic生成可解释的主题。实验结果如图3.9所示。图中展示了6个主要语义角色的结果，描述了聚类数量、聚类主题示例以及每个聚类的三个代表性示例。实验结果表明，ARC 可用于识别有意义的短语簇。

图3.8　ARC在16个法规上提取元组的结果

图3.9　20个法规的SRL参数聚类结果

5.隐私政策合规性分析

文中使用ARC验证了隐私政策的合规性。

数据集：采用半自动化的方法从S&P 500公司的隐私政策中收集数据，涵盖美国、加拿大和欧洲的法规。最终获得1,864个特定法规的隐私政策。
构建多标签Policy Segment分类器：使用 OPP-115 数据集训练了一个BERT分类模型，以识别Policy Segment的类别，并将其映射到要求元组。得到模型的F1-score为86%。
提取隐私政策元组：使用 ARC 从隐私政策中提取元组，提取时主要依赖每个声明的动词。
构建隐私法规要求元组：从CCPA、GDPR、VCDPA和PIPEDA四个隐私法规中整理出40个适用于隐私政策的监管要求，之后对提取的元组属性进行预处理（加入额外的关键词、合并或过滤无关术语），以便与隐私政策元组进行直接比较。
元组分析：从三个角度将政策中的属性与法规要求进行比较，如图3.10所示。

数据本体比较：基于PolicyLint发布的数据本体，并扩展包含法规中的数据对象。检查隐私政策中的数据对象是否在法规中定义的数据对象的从属关系下。
属性值比较：对提取的元组属性（如动词、权利、术语）进行关键词搜索。如果隐私政策中的属性值包含法规中规定的关键词，则视为匹配。
属性存在性比较：直接检查隐私政策声明中是否存在法规要求的属性。如果声明了这些属性就判定为合规。

图3.10 合规性分析示例

（6）隐私合规性分析：比较了法规中的要求与隐私政策声明以评估合规性。为辅助分析，文中将政策声明分为三种情况进行讨论

完全匹配 (Full Match) ：通过segment分类器找到匹配，并且通过元组分析验证符合要求。
部分匹配 (Partial Match) ：segment分类器找到匹配但元组分析不符合要求。
完全遗漏 (Full Miss) ：segment分类器未找到任何匹配。

文中对 1,864 项政策进行了分析，涉及 40 项监管要求。分析结果如图3.11所示。ARC共发现了476 处缺失陈述，大多数政策声明属于部分匹配，这是因为系统专注于识别完全匹配和完全遗漏的情况，且未考虑跨段落的上下文信息。

图3.11 S&P 500企业的合规性分析结果

此外，还进行了手动验证，从每个类别选取了50 项政策样本，ARC 以 JSON 形式提供结果以辅助人工分析。实验结果如图3.12所示。识别缺失语句的准确率为72.12%，完全匹配语句的准确率为90.13%。经过手动分析，发现66.80%的部分匹配声明实际上是完全匹配的。

在效率上，由于ARC不仅分类政策声明，还提供了详细的上下文信息，因此显著减少了手动验证的工作量，特别是在处理部分匹配和完全遗漏的声明时。

图3.12 隐私政策合规性验证结果

4.优缺点

优点

实现了法规文本的结构化表示：ARC能将复杂的非结构化法规文本转换为结构化的元组形式，同时捕捉到所有重要的上下文信息，可用于进一步的对比分析。
能够分析法规文本的相似性：ARC 通过比较不同法规文本中的定义和术语，能够识别和分析法规之间的相似性，有助于理解法规之间的异同、发现潜在的合规冲突、进行隐私合规评估。
提升了人工分析的可靠性：自动化工具减少了因人为因素造成的分析不一致性，提供了更加可靠的结果。

缺点

数据集限制：文中使用的OPP-115数据集创建于2016年，可能会在一定程度上影响ARCBer模型的表现。
隐私合规性分析中比较元组的方式存在不足：属性值比较只是进行关键词匹配，而关键词匹配通常忽略了上下文信息，可能导致误判。属性存在性比较只关注属性是否存在而不考虑属性的具体内容或含义，可能无法识别属性之间的实际差异或细节要求，导致合规性分析的不够准确。

vidi19

关注

22
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫