该论文的轨迹聚类方式参考的是TRACLUS算法,并且在此基础上进行改进。
首先是多计算两条线段之间的时间距离。在这其中引入了一个时间窗口 δ,用于拓展时间长短。计算两个子轨迹的寿命,并验证子轨迹 2 在时间维度上是否部分或完全重叠子轨迹 1。如果重叠是部分重叠或全部重叠,将计算最大持续时间重叠(MOD)。然后,验证子轨迹1在时间维度上是否与子轨迹2部分或完全重叠。如果重叠是部分重叠或全部重叠,再计算 MDO。
最后,使用两个子轨迹的 MDO 和寿命,计算时间距离。
时间距离 TDi(δ) ε[0, 1] 定义如下: TDi(δ) = ||1 - MDO(δ)/(lifeSpan1 + LifeSpan2- MDO(δ)|| 其中 MDOi(δ) 是两个子轨迹之间时间周期的最大持续时间重叠,lifeSpan1和lifeSpan2是两个子轨迹的时间跨度。
MDOi(δ) = MAX{dur([trs1, tre1] ∩ [trs2, tre2]), dur([trs1, tre1] ∩ [trs2, tre2 + δ]),
如果两个子轨迹在时间维度上相同,则假设时间距离的值为0。时间距离为1表示子轨迹之间不存在时间相似性。空间维度则使用TRACLUS算法。
当然论文的评价指标选用的是:
熵作为信息、选择和不确定性的度量在信息论中至关重要。
当 Eps 和 timethreshold 极小时,则 |N∈,timethreshold(L)|几乎所有线段都接近 1。如果 Eps 和 timethreshold 极大,则 |N∈,timethreshold(L)|成为几乎所有线段的线段总数。根据熵理论,对于同样可能的结果,熵变得最大。
Quality Measure = Total SSE + Noise Penalty
轮廓指数,基于凝聚力测量和分离测量。内聚度是指线段与其自身簇的相似程度,而分离度是指线段与属于其他簇的所有其他线段的不同程度。
轮廓索引值的范围是 –1 到 +1。值越大表示聚类质量越好。如果大多数线段具有较高的值,则簇的质量较高。如果许多线段的值较低或为负,则聚类质量较低。
质量度量是平方误差总和与噪声惩罚之和。然而上述数值并不成为对比而是论文中实验的参数,在此不做讨论。
比较的算法为:TRACLUS、CorClustST 和 ST-OPTICS,参考的是Dunn指数是一种评价簇的紧密度和分离度的方法。 Dunn指数值越大表明聚类质量越好。 Dunn指数基于对象之间距离的概念。在上述算法中,使用了空间距离和时间距离,因此我们分别使用空间距离和时间距离计算Dunn指数。
以下是对比图:
虽然说TRACLUS的空间值较大,担其未考虑时间因素,因此ST还是达到了预计效果