《位置大数据隐私管理》—— 2.2 位置同质性攻击-CSDN博客

本节书摘来自华章出版社《位置大数据隐私管理》一书中的第2章，第2.2节，作者潘晓、霍峥、孟小峰，更多章节内容可以访问云栖社区“华章计算机”公众号查看。

2.2 位置同质性攻击

下面将在2.2节和2.3节分别介绍位置同质性攻击模型和查询同质性攻击模型，这两个模型被统称为同质性攻击。在建立攻击模型时，在背景知识方面，前者考虑的是位置语义，而后者基于查询语义。

2.2.1 攻击模型

对于采用空间模糊化方法生成的匿名集合，如果匿名集用户的匿名区域仅覆盖一个敏感位置（如医院），通过公开的信息如医院发布的就诊记录，攻击者可以以较高的概率确定目标对象敏感信息（如曾去医院就诊），攻击目标的隐私信息泄露（如健康状况），此攻击为位置同质性攻击。Hu等人[56]首次提出当匿名位置与外部公开信息相结合时，将产生用户个人敏感信息泄露的问题，文献[46]对匿名处理结果进一步优化。

4367f06d00cf9972b97656833f905e6c21e38169

图2-9以示例的方式给出了一个位置同质性攻击的场景[52]。Acme是一个有名的保险公司。客户信息对保险公司来讲属于商业机密，不可公开。Acme的员工需要频繁地造访客户，经常使用LBS服务（如Google maps）规划行程。一个恶意攻击者（如LBS）通过观察获得频繁从Acme发出的LBS查询，则有可能推断并重建出Acme的客户列表。当然，为了避免此种情况的发生，可以采用2.1.2节介绍的位置k-匿名模型，如图2-9所示。为用户u生成的匿名区域满足位置3-匿名。由于Acme公司的员工位置临近，不幸的是在同一匿名区域的用户均是Acme的员工，即位置语义相同（语义位置的定义参见2.2.2节定义2-5）。可见，仅仅满足位置k-匿名模型的匿名集合存在位置同质性攻击的风险。
最初的研究工作仅考虑物理（静态）位置的个数，对位置同质性攻击进行了形式化描述。文献[41]基于位置语义、敏感性和POI在地图上的分布状况，给出了基于位置语义的敏感位置同质性攻击模型的形式化定义。文献[41]假设空间中位置分布的概率密度函数pdf已知。表示一个位置在区域r中的概率。一般情况下，位置不是均匀分布的。如果P(r)=0，则区域r不可达，否则r可达。根据用户隐私需求，从敏感度的角度，位置类型（记为FT）可分为敏感类型FTs和非敏感类型FTns两类，。将敏感位置扩展到区域中：区域r是敏感的，如果r与一个区域Cov(ft)相交，该区域包含敏感类型为ft的位置，形式化地表示为：

64ae64e6f5c5ec24982aa0c3f95d86b6b98b8256

其中Cov(ft)表示包含敏感位置语义ft的区域。
文献[41]中用“敏感度”度量区域r的隐秘情况。一个区域的敏感度取决于该区域覆盖的位置和位置分布概率密度函数pdf。用Psens(ft, r)表示区域r相对于位置类型ft的敏感度。Psens(ft, r)即在区域r中用户位于敏感类型为ft区域中的概率，形式化地表示为

73552d4c976b4034c7292daf53c261c8d2f3462c

公式（2-1）表达的语义即区域r与位置类型为ft的区域的重叠程度。无论何种位置类型，不可达区域的敏感度均为0。如果某区域被敏感位置完全覆盖，则Psens(ft, r)=1。
下面通过一个例子解释上述概念。设Hospital是一种敏感类型，其有两个实例H1和H2。如图2-10所示，H1与区域r部分重叠，H2被完全覆盖在r中。此外，区域r中包含一个湖泊L。假设L不可达，用户在L以外的区域出现的概率相同，即均匀分布。，其中Area()表示区域的面积。区域r相对于Hospital的敏感度为：

b91cced38348b977815ee53bfce93bd45c1dacd3

分子表示H1和H2在区域r中的面积，分母表示r中除去L之后的面积。

4115ca103f0b9e3a1cf0ca6cd11edbc98abdc401

基于位置语义的敏感位置同质性攻击：用户针对每一种类型ft定义一个可接受的最小敏感度阈值τ，如果满足，则说明区域r是安全的，否则称产生了敏感位置同质性攻击。
再举一个例子：用户设定敏感位置类型FTs={Hospital, Religious Building}，针对每一种类型的敏感度阈值T={(Hospital, 0.4), (Religious Building, 0.1)}。如果某用户计算Psens(Hospital, r)的值大于0.4，则说明发生了敏感位置同质性攻击。

2.2.2 位置l-差异性模型

2007年，Ling Liu借鉴数据发布隐私处理中的l-差异性模型的思想，提出了位置l-差异性模型[38]，以防止位置同质性攻击。位置l-差异性模型保证在一个匿名区域中的用户除满足位置k-匿名模型外，匿名框中需要包含l个不同的物理/实际位置。该模型降低了k个或更多的用户同时位于一个敏感位置的风险。k-匿名模型保证了一个用户不能从k-1个其他用户中识别出来。位置l-差异性模型则保证用户的位置不会从l个物理位置中识别出来（如教堂、医院、办公室等）。图2-11显示了一个以四分树划分法获得的匿名区域，其中匿名区域中的用户同时满足位置k-匿名（k=3）和位置l-差异性（l=2），圆点代表运动对象，三角形代表不同的物理位置。
很明显，参考文献[38]最初提出的位置l-差异性模型忽略了位置类型和用户的位置语义。直观上来讲，用户位置带有语义信息，如用户现在位于商场，则说明用户很可能正在购物；用户身处女子学校，则该用户有很大的概率是一名女性学生。在文献[52]中对位置语义进行了形式化定义。

a7a90d0daed0d7a525c2f85f0b9f5cf0f2da00cd

语义位置：语义位置是一个区域，在该区域中聚集的用户具有相似的情境信息，如年龄、性别、活动等。学校、医院、公司等都可以是语义位置。
设SQ是提交给服务提供商的所有查询组成的集合。对于任意一个查询，都有一个语义位置?与查询用户相关联。例如，在2.2.1节的例子中，一个用户从Acme公司总部提出查询Qi，则该查询的语义位置即Acme公司。需要说明的是，一个语义位置可能有很多实例。例如，Acme公司具有很多分公司，这些分公司遍布于不同的地方。如果Li='Acme'且Acme有3家分公司，则T('Acme')={Acme1, Acme2, Acme3}。攻击者观察所有查询，可以估计每一个查询的语义位置分布。形式化的表示即对于任意一个语义位置（SL是所有语义位置组成的集合），攻击者可以估计查询q的语义位置分布DLi(q)。通过这些估计值，攻击者可能获得用户隐私。
例如，设位置语义集合SL={L1，L2，L3}，SQ={Q1，Q2，Q3}。假设攻击者观察到了100个查询，其查询分布如图2-12所示。攻击者通过图2-12中的数据统计生成形如的关联规则。设L1=Acme，Q1=“寻找到达107街道的最快路径”。因为该查询从Acme公司发出的概率最高（89%），则攻击者可以假设该查询即Acme的员工，即推断Acme的客户居住在107街道，并可通过其他公开信息获得在107街道用户的基本信息。
从图2-12中可发现，相同的查询Qi可以从多个语义位置发出。这些语义位置用QLi表示。在刚才的例子中可以提出查询Q1的语义位置QL1={L1，L3}。如果查询Qi从Lj提出查询的概率大于零，则称位置。由此定义弱位置差异性。

9ebf5ea11d2ece1d6ff351cc6e24df1607a61416

弱位置差异性：一个查询Qi展现弱位置差异性，如果，即查询Qi至少与l个不同的语义位置相关。
在图2-13所示的例子中，SL={Acme, Hospital, School, Shopping Mall}。用户u从Acme提出查询，匿名服务器根据先验知识为用户u选择语义位置集合。该集合中的语义位置满足两个条件：1）覆盖用户u的位置；2）除用户u的语义位置外，包含l-1个其他的语义位置。设匿名服务器选择的语义位置QLu={Acme, Hospital, School}。采用数据失真中随机化的位置保护方法（如生成假数据），从Hospital和School两个语义位置范围内随机生成两个假用户uh和us，与u组成匿名集，该匿名集满足弱位置差异性（l=3）。在弱位置差异性中保证每一个查询语义仅有一个实例。

b7c1975f505e662aea26a5251aaed727c3d0063c

强位置差异性：一个匿名方法满足强位置差异性，如果对于和每一个语义位置，将查询Qi与Lj之间建立起关联的概率最多为1/l。
如果一个匿名方法生成的匿名集合满足强位置差异性，则匿名集合中的每一个查询也满足弱位置差异型；但是反过来不成立。寻找满足强位置差异性的匿名方法比寻找满足弱位置差异性的方法要难。文献[52]表示根据每一个语义位置的实例个数，并不是任何情况都存在满足强位置差异性的方法。所以在文献[52]中给出了一种介于二者之间的匿名算法。然而，文献[52]并没有考虑地址的敏感性。文献[41]进一步将物理地址划分为敏感与不敏感两类，考虑位置敏感度的安全匿名区域的定义参见定义2-4。