论文笔记：Spatial-Temporal Similarity for Trajectories with Location Noise and Sporadic Sampling-CSDN博客

本文链接：https://blog.csdn.net/qq_40206371/article/details/130105393

本文探讨了在存在定位误差和不同采样率的情况下，如何度量两条轨迹的相似度。提出了一种基于网格的概率模型，通过计算轨迹在特定时刻位于网格的概率，结合高斯分布模拟定位误差，并利用个体速度信息动态估计转移概率。这种方法适用于无大量历史数据的情况，通过出租车和商场行人轨迹数据集进行了验证。

摘要由CSDN通过智能技术生成

衡量两条轨迹之间的相似度，并且这些轨迹数据是有定位误差和零星采样问题

1 Intro

随着物联网设备和定位技术的发展，会产生许多时空相似度很高的轨迹，例如：
- 单个个体被多个定位系统采集
  - 比如当用户驾驶汽车在高速上行驶，手机或汽车的GPS、路边的监控摄像头，以及经过的收费站等都会记录用户的位置信息，生成多条轨迹
- 多个个体结伴而行，生成相似度较高的轨迹
本文研究的方向就是设计一种方法来度量两条轨迹之间的相似度

定位误差问题
- 例如下图(a)中黑和白在现实中处在相同的位置，但二者的定位数据却相差比较远。
零星采样问题‘
- 不同的定位系统，它的采样率不尽相同
异步（heterogeneous）定位的问题
- 假设黑和白结伴行走，两个定位系统的采样率也相等，但由于两系统的采样时刻不同，导致二人的位置数据并没有时间和位置上的重叠（下图(b)）

—》这篇论文希望涉及一种非深度学习的方法，来度量两条轨迹的相似度

判断两个轨迹相似于否，就是看在某些时刻（两个轨迹采样时间的并集），两个轨迹都在某一个网格的概率

论文方法要考虑定位误差带来的影响，因此对于采样点的位置l，希望将其表示为概率分布的形式，而不是一个确定的点。
- 论文通过最常用的高斯分布来模拟定位误差的概率分布情况
  - 将网格r的位置作为高斯分布的期望值
  - f(r, li)代表对于采样点中的位置li，其真实位置位于网格r内的概率。
  - li与r的距离越近，对应的概率就越高
将公式(3)融入公式(2)中
$P(r_k,t_{i+1}|r_j,t_i)$ 由2.3的转移概率得到

计算转移概率
- 个体从时刻ti到ti+1，从位置li转移到位置li+1的概率
- 在很多方法中，转移概率都是基于大量的历史数据，通过计数的方式来计算的
  - 然而本文中，在没有历史数据做支撑的情况下，通过个体的速度信息来计算转移概率。
  - 许多同样基于速度来计算转移概率的工作为了计算简单，会假设物体的速度固定不变，这显然是不合理的。
    - 在本文的方法中，会为每条轨迹生成其单独的速度概率分布，并充分考虑移动过程中速度的变化，这也体现了该方法名字中的个性化（personalized）这一含义
首先根据两个采样点之间的数据和间隔时间，计算两点间的平均速度，生成一个速度数组S
之后通过核密度估计来得到该轨迹速度的概率分布情况
- 本文选择了最常用的高斯核函数，将带宽h设为，来计算速度数组的分布情况
- ——>想计算两个位置间的转移概率时，我们先计算两个位置间的平均速度，代入图像中对应的概率值，就是其转移概率

现在知道了如何去计算STP，也就是对于某一条轨迹，在时刻t，个体位于网格r内的概率。
那么，对于两条轨迹，他们在同一时刻t位于同一网格r内的概率，就用两条轨迹的STP相乘，然后对每一个可能的网格进行求和就可以了
根据时间的情况，STP有三种计算方式（公式5），所以这里的CP也有相应的三种计算方式
- - 这里为了简化，并不是任意时刻，而是两条轨迹采样点的交集
    - 比如说，有两条轨迹Tra1和Tra2，它们各自有三个采样点t1、t2、t3和t4、t5、t6，取它们时间戳的并集。
    - 假设只有t3和t4相等，其余各不相同，那么t的范围就是t1、t2、t3、t5、t6
      - t3使用的是第一行，其他的四个时刻使用的是第二行

作者对两个数据集都做了处理，删掉了采样数小于20的轨迹。

轨迹相似度一直以来存在的问题是没有ground-truth（我只能收集到一条条轨迹，不知道哪条和哪条比较相似）
论文将一条轨迹交替采样，分成两条轨迹
- 将这两条轨迹称为同源的轨迹
- ——>这样就相当于手动生成了两条相似度极高的轨迹。
- 因为我们知道这两条轨迹的相似度很高，如果进行轨迹匹配，对方就是匹配的最佳结果，因此也相当于获得了ground-truth。 $Tra^{(1)}$
- 同时这种将一条轨迹分成两条的方式也模拟了异步采样的场景，可以说是一举多得。