SEDANSPOT Detecting Anomalies in Edge Streams阅读记录

最新推荐文章于 2024-04-01 00:39:56 发布

给我一瓶AC钙

最新推荐文章于 2024-04-01 00:39:56 发布

阅读量450

点赞数

文章标签：论文

本文链接：https://blog.csdn.net/TDD_Master/article/details/114485265

版权

个人blog 文章链接

Why：

先前的工作表明，在许多应用程序中，欺诈或重要事件的确确实发生了尖峰或活动爆发。（比如网络安全问题，诈骗，重大节日（节日产生比平常更长的通话时间））。尽管异常活动倾向于突发，但突发性不一定表示异常：在诸如网络流量之类的动态情况下，正常活动也可能是突发性的。因此，为了进行可靠的检测，我们需要结合时间和结构信息。

同时蓄水池采样和随机游走重新启动(RWR)算法对现在这个突发问题的局限。

$I$ . Introduction

我们考虑在这种边缘流中实时实时检测异常的问题，其目的是在当边来时候，检测它是否异常。尽管在线图形异常检测是一个经过充分研究的研究领域，但大多数方法都假设边已被汇总到图形快照中。相比之下，该文章提出算法可将边缘流几乎实时地直接处理边异常，这对于减少恶意活动的影响并及时启动恢复过程至关重要。此外，鉴于顶点的数目是先验未知的，并且可以随着流的进行而增长，因此该算法应在图大小下的存储亚线性中进行操作。

在这里插入图片描述

由于异常的定义可能取决于上下文，因此我们专注于检测连接图的稀疏连接部分的边（桥边）。

在这里插入图片描述

这些“红色”边缘的同时发生不是偶然。先前的工作表明，在许多应用程序中，欺诈或重要事件的确确实发生了尖峰或活动爆发。（比如网络安全问题，诈骗，重大节日（节日产生比平常更长的通话时间））。尽管异常活动倾向于突发，但突发性不一定表示异常：在诸如网络流量之类的动态情况下，正常活动也可能是突发性的。因此，为了进行可靠的检测，我们需要结合时间和结构信息。

$I I I$ . Background

蓄水池采样是一种经典算法，用于维护流中元素的固定大小的统一样本。但是不能对突发周期的边缘进行降采样。

随机游走重新启动(RWR) v的相关性得分，关于u是点从u出发，重启概率是 $a$ ，最后在v的稳态概率。直接使用RWR是代价（时间的空间）昂贵的，（该文使用的是近似的方法，局部随机游走），边缘流的RWR相关性分数计算的现有工作要么假设一个提前知道的起始顶点，要么维持所有对相关性分数。因此不适用于我们的环境。

在这里插入图片描述

$I V$ . Problem Framework

目的是通过时间和空间找到异常的边，它们趋向于（i）发生活动爆发，并且（ii）连接图的稀疏连接部分。(上文提到说正常活动也可能是突发的，节假日的通话时间更长，可以理解虽满足第一个活动爆发的条件，但是不满足第二点)为了使用有限内存快速进行此操作，我们对到目前为止看到的边缘保持固定大小的样本，并使用它对任何新边缘的异常情况进行评分。因此，问题1可以细分为两个子问题，每个子问题都包含上述异常信号之一，如下所示：

在这里插入图片描述

$V$ . Proposed Method

SEDANSPOT(Alg. 1) 通过 SEDANSCORER(Alg. 3) 对每一条边与当前的边采样比较得到一个异常分数。

采样基于边来更新，使用SEDANSAMPLER(Alg. 2)。

在这里插入图片描述

$\propto$ ：正比于， $r (.)$ 是边变化率的度量，因此较大的值表示边缘的爆发更剧烈。直观来讲，加权蓄水池采样可以确保如果因为活动爆发期间发生的攻击导致基础图G的某个区域单独稠密连接。在采样图的相关区域中仍然有些稀疏连接。（可以认为采样图是一直保持一个相对正常连接的图形状态），这为检测属于同一攻击的后续边缘奠定了基础，攻击出现在相同的区域。（因为采样图还是正常状态，在采样的图上算异常得分还是会高，而且是因为同一个区域导致的得分高）

边变化率定义如下： $|\varepsilon_{t(e)}|/(t(e)-t_{bef}(e))$ （2）

$t (e)$ 是e这条边来的时间戳， $\varepsilon_{t(e)}$ 是在 $t (e)$ 时间戳（包含e）来的边的集合。 $t_{bef}(e)$ 是在e之前来的边中最近的时间戳。这个时间戳间距内来的变越多或者时间戳间距变小都会导致变化率的增大，边的爆炸越强烈。

现在定义了 $r (\cdot)$ ，可以使用加权蓄水池采样算法轻松维护速率调整的样本。算法2使用MinHeapPriorityQueue数据结构进行有效的 $O （ l o g S ）$ 更新。

在这里插入图片描述

MPI :边缘临近度增加

$s (v ∣ u; S)$ 是在边集 $S$ 的基础上对源点 $u$ 和终点 $v$ 的有向顶点接近度。最短路的数量越多，在 $S$ 上从 $u$ 到 $v$ 路径的权重越大，这个值越大。为此可以使用等式（1）中的RWR相关得分，由于其原理（包括直接路径和间接路径），不对称，有界于 [0,1]，可以使用局部随机游走快速估算。

VISIT_FRACTION() 通过N次局部随机游走，输出估计值 $\hat{s}(v|u;S\cup\{e\})$ 。每一次，游走过程中访问v的次数与步行总长度的比率即为估计值 $\hat{s}$ 。

在这里插入图片描述

Alg 3 line 11： $\leftarrow w+ out\_weight\ of\ u_{*}$ W是 $u_{*}$ 的出边权值之和，根据权值概率选择出边

SEDANSAMPLER确保属于给定时间间隔的采样边的数量仅取决于其持续时间，而不取决于其间发生的边的数量。

因为 $|\varepsilon_{t(e)}|/(t(e)-t_{bef}(e))$ ，该集合边的优先权为 $1 / r (e)$ 即 $(t(e)-t_{bef}(e))/|\varepsilon_{t(e)}|$ ,若优先权和为 $W_{all}$ ,不考虑样本集大小在这个时间区间采样的数量期望为 $\dfrac{t(e)-t_{bef}(e)}{|\varepsilon_{t(e)}|*W_{all}}*|\varepsilon_{t(e)}| = \dfrac{t(e)-t_{bef}(e)}{W_{all}}$