论文研读:Have You been Properly Notified? Automatic Compliance Analysis of Privacy Policy Text with GDPR

1.论文信息

标题:Have You been Properly Notified? Automatic Compliance Analysis of Privacy Policy Text with GDPR Article 13

作者:Shuang Liu, Baiyang Zhao, Renjie Guo, Guozhu Meng, Fan Zhang, Meishan Zhang

年份:2021年

会议:International World Wide Web Conference Committee

研究机构:College of Intelligence and Computing, Tianjin University

关键词:Privacy, Compliance Analysis, Natural Language Processing

主要内容: 本文提出了一种自动分析隐私政策内容的方法,以检测数据控制者在收集个人数据时是否违反了GDPR 第13 条规定(该条款规定了必须向数据主体提供哪些信息以及如何提供信息的各个方面)。

2.问题分析

  1. GDPR包含大量特定的法律术语,只有了解领域内的特定知识才能理解法律法规。因此,多数app用户难以理解隐私政策。
  2. 隐私政策文本往往是长篇文档,用户往往没有耐心通篇阅读,很难发现应用程序是否侵犯了个人隐私数据。
  3. 部分服务提供商可能缺乏相关领域的知识,无意违反法律法规。

3.方案

下图为文中提出的隐私政策内容分析框架。该框架由有两个部分组成。

图5.1 隐私政策内容分析框架图

  1. 句子分类:
  1. 创建语料库:作者基于GDPR第13条内容,提炼出10 个标签。之后,从Google Play 上筛选了304 份隐私政策,人工为每个句子标注标签,最终创建了一个包含 36 610 个句子的语料库。
  2. 训练分类模型:使用支持向量机(SVM)、双向长短期记忆网络(BiLSTM)、BERT三种模型进行句子分类任务。针对标签不平衡问题,修改了损失函数,在计算损失时为每个标签添加了权重。
  1. 合规分析:文中基于GDPR 第 13 条得出的10个标签,提出了9 条规则,这些规则都遵循一个模式:if A holds, then B must be satisfied, 其中A是数据控制者的行为,B是数据控制者需要告知数据主体的内容。根据命题逻辑可知:A → B ≡ ¬A ∨ B。因此,合规性分析任务可进一步分解为句子分类任务,如果隐私政策中没有描述收集个人信息的句子(¬A),或者有适当描述用户权利的句子(B),就判定为合规。

图5.2 合规规则

4.实验评估

1. 分类准确性评估

文中使用precision (P), recall (R) and F1-score (F)作为评估指标,使用十折交叉验证法评估三个模型的结果。实验结果如下图5.3所示。可见BERT 表现最佳,具有最高的平均F1-score,其次是BiLSTM,SVM的F1-score最低。作者认为,由于GDPR定义的术语可能较宽泛,隐私政策中的描述可能不明确或含糊,导致某些标签之间存在相似的上下文信息,从而造成分类错误的情况。

图5.3 分类模型结果

此外,文中探究了不同句子长度下模型的表现。实验结果如图5.4所示。SVM的性能在处理长句子时明显下降,而BiLSTM和BERT 在处理长句子时表现稳定,因为它们能够捕捉句子的全局特征。

图5.4 F1-score与句⼦⻓度的关系

2.合规性分析

文中基于图5.2中的规则,使用BERT模型进行合规性分析,具体规则为:如果A为真且B为假(即A ∧ ¬B),则报告合规性问题。实验结果显示,合规性分析的accuracy是90%,recall是91%。此外,有107个问题未被检测到,其中73个是由于分类错误造成的(未能报告规则中的¬B部分)。

3.可用性评估

作者利用文中提出的方法创造了为一个名为 AutoCompliance 的 Web 应⽤程序,如下图5.5所示。文中进行了细致的用户调研,结果显示,该应用能够将用户阅读隐私政策的时间减少55%,说明本文方法具有较高的可用性。

图5.5 AutoCompliance工具

5.优缺点

优点

  1. 创建了一个关于隐私合规分析的语料库。
  2. 巧妙地将隐私合规分析任务检测为句子分类任务。

缺点

  1. 语料库存在数据不平衡的问题,在一定程度上会影响分类的准确性。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值