上周五睡眼朦胧的时候,导师说我今年名额没申请下来,你挂在xx名下可以么?我竟一时不知道说什么好。算是被坑了一下。不过也不全是坏事,之前组里的气氛很让人头大,换个新组开始新研究,反倒觉得更有盼头了。
ACM SIGKDD
TrajGuard:A Comprehensive Trajectory Copyright Protection Scheme
轨迹数据在许多城市应用中得到了广泛的应用。由于轨迹数据包含了运动目标的隐私信息,因此在有效监控下实现轨迹数据的共享是一项非常重要的任务。大公司通过购买用户的私人数据来进行行为预测,推荐等。然而,恶意数据用户可以通过各种方式修改轨迹,以避免基于散列的数据签名(如MD5)对数据分布的跟踪。因此作者提出一种轨迹的版权保护方案,该方案分为三个部分1)身份信息分布地嵌入一组基于时空区域划分的子轨迹;2)以子轨迹的质心距离作为稳定的轨迹属性嵌入信息;3)采用区块链技术作为可信第三方,记录所有数据事务历史,进行分散的数据分布跟踪。最后在两个数据集上验证了算法的有效性。
fig1.恶意用户窃取其他用户上传数据修改后出售
传统的轨迹版权验证方式:在数据中嵌入ID
局限性:1、攻击者修改原数据导致数据提供者的原始数据被篡改。2、没有一个中心组织来规范数据提供者,是的攻击者可以反复发动攻击。
解决方案:
1)身份信息分布地嵌入一组基于时空区域划分的子轨迹;
将ID分布式的嵌入多个子轨迹中
2)以子轨迹的质心距离作为稳定的轨迹属性嵌入信息;
嵌入子轨迹质心距离(centroid distance)以确保数据时空特性不被修改
3)采用区块链技术作为可信第三方,记录所有数据事务历史,进行分散的数据分布跟踪。
引入共识机制,加强对攻击者的限制
ti:timestamp pi:point
使用线性插值来估计轨迹pt(t)是轨迹函数
表示可修改的最大距离
质心定义为轨迹中各点的平均坐标
各点到质心的距离
问题描述:在
条件下,即数据效用保留的条件下。通过嵌入ID信息使数据不被修改
整体框架:
标识嵌入:它将身份信息嵌入到轨迹数据集中。我们首先将原始轨迹划分为子轨迹,以便在整个数据集上分布身份信息。在每个子轨迹中,利用轨迹质心距离来嵌入信息。最后,所有嵌入的子轨迹被连接成一个完整的轨迹数据集。所有权检测:当数据提供者获得可疑数据集时,它识别轨迹数据的所有权。首先,它分割轨迹与嵌入过程相同的设置。然后,信息提取模块从每个子轨迹中提取嵌入的信息。如果提取的信息与嵌入的信息相匹配,就可以确认数据的所有权,证明数据的非法再分配行为。所有权跟踪:所有权跟踪流程记录数据事务历史,作为可信的第三方来证明数据事务的存在。这样,当检测到身份信息时,数据剽窃者就不能否认非法的数据重新分发活动。为了使其公平并得到所有人的认可,交易日志记录器由区块链以一种分散的模式维护,这样就没有人能够控制日志记录器。
ATTACKS ON TRAJECTORY DATA
空间攻击:1、增加噪音2、改变轨迹
时间攻击:修改时间轴
身份embedding:
根据spartial和temporal将tracjectory分割,每个latitude和longitude划分成不同的grid,每个grid中的小数部分进行映射。根据我们的假设,当
时,数据的效用不会产生变化。因此,经过变化后的数据仍可作为用户行为的输入的一部分。我们将用户的ID以分布式的方式嵌入到每个grid中。这时,数据中包含了我们的ID属性,而且这种方式解决了spartial的noise add攻击。其中两个主要问题时确定数据效用的T和grid的划分方式。(但是由于这种方式的算法是透明的,可以被其他人使用,所以没有解决copyright的问题)。
copyright的解决使用了区块链技术,即建立一个区中心网络,对于每个用户上传的数据进行认证。使得攻击者无法篡改数据的所有者。
最后作者使用了两个数据集来作为实验结果的验证:
1、geolife2、t-driver
baseline选择了 Fourier Descriptor Modulation和Distance Modulation between Feature Points
使用了多种攻击来验证模型的鲁棒性。结果如下:
其中模型对攻击的识别准确率达到85%即认为该模型时可以识别这类攻击的。可以看到我们的方法对攻击识别准确率均为yes。超过传统的FDM和DMFP