《异常检测——从经典算法到深度学习》20 HotSpot：多维特征 Additive KPI 的异常定位

smile-yan

已于 2024-05-26 23:37:34 修改

阅读量8.7k

点赞数 6

分类专栏：异常检测文章标签：深度学习算法人工智能

于 2022-11-30 22:58:45 首次发布

本文链接：https://blog.csdn.net/smileyan9/article/details/128027936

版权

异常检测专栏收录该内容

28 篇文章 307 订阅

订阅专栏

《异常检测——从经典算法到深度学习》

20. HotSpot：多维特征 Additive KPI 的异常定位

论文名称：HotSpot: Anomaly Localization for Additive KPIs with Multi-Dimensional Attributes
论文下载：netman | ieee.org 下载后排版有一定偏差，但内容相同。
论文发表于 IEEE Access 2018
源码地址：暂时没有找到源码

20.1 论文概述

首先必须说明的是，该论文提出的算法与本系列其他算法有很大的不同，包括：

相对与异常检测 工作，更加注重的是 异常定位；
数据对象为 Additive多维特征 KPI 数据（什么事 Additive KPI 在后面介绍）

20.1.1 论文提出算法的动机是什么？应用于什么场景？（Motivation）

当异常发生后，我们需要找到异常发生的根因（root cause），也就是定位到具体哪个KPI表现出异常，即找出根本原因。

这里举个例子，对于某一个特定业务，需要用到的中间件包括 mysql, redis, es，对应的微服务包括 service1, service2，我们对提供服务的各个阶段都采集 KPI 数据，当异常发生时，我们需要快速找到究竟是谁出了问题。这里需要强调 root cause 的含义，当我们发现某个服务模块有问题而这个服务模块包括 redis 与 mysql 以及服务提供逻辑代码，我们需要进一步确定到底哪块出问题，而不是笼统地回答。

因此，算法的应用场景也比较清楚，该场景满足以下三个条件:

场景具有多个流程。类似于我们求的是多项式计算入 (1+2*4 - 7) / 3，而不是只有一个流程，如 1 + 3。
场景中每个流程都可以量化，即使用 KPI 表示健康情况。
场景中各个流程中具有一定的相关性。如果每个流程都相互独立，那就不存在寻找 root cause 的需求了。比如三个相互独立的房间中有三个人，哪个房间的灯亮了一定就是那个房间的人干的事情，不需要一个一个步骤调查分析了。

20.1.2 论文提出了什么算法，是如何找到 root cause ?

论文用到的最核心的算法应当包括：

蒙特卡罗搜索树 Monte Carlo tree search (MCTS)，用来搜索定位异常发生地。
Potential Score (ps) 用来评估每个元素的潜在风险程度的方法。

关于这两个方法如何应用在论文中在后面做详细介绍，目前给一个粗略的答复。

论文通过 Potential Score 评估每个结点的异常程度；
论文通过 Monte Carlo Tree Search 定位异常根因。

20.1.3 总体概述论文内容

论文提出了采用 MCTS 方法的 HotSpot 框架（在异常定位文献中首次出现），可以捕捉异常是如何从根本原因在整个聚合层次结构中传播的（确定异常根因），并且论文提出了一种分层剪枝的方法来进一步缩小搜索空间以节省搜索时间，提高算法速率。

20.2 相关技术背景介绍

20.2.1 additive KPI

比如 page view, revenue, traffic volume，大概可以理解为数值类型的。事实上后来的很多KPI异常检测论文默认数据对象就是数值类型的。

20.2.2 多特征 additive KPI 数据的异常定位

多特征additive KPI 异常定位问题是识别最有可能导致总 KPI 值异常变化的模块及其元素。论文原文使用的是长方体（cuboid）来表示模块的概念，如图一所示：
在这里插入图片描述

20.2.3 Monte Carlo Tree Search（MCTS）蒙特卡罗搜索

蒙特卡洛树搜索（MCTS）是一种启发式搜索算法，适用于某些类型的决策过程，尤其是游戏中使用的决策过程（例如AlphaGo）。

在这里插入图片描述

这部分的资料比较多，感兴趣的可以自行搜索，可以参考一下 https://blog.csdn.net/qq_24178985/article/details/121803376。

不过也可以不急着深入理解这个方法，继续看其他部分。

20.3 论文阅读

这里跳几个比较重要的部分进行介绍

20.3.1 Contribution

为了处理根源的巨大搜索空间，HotSpot 采用了 MCTS 方法（文献中首次应用在异常定位）。
在采用 MCTS 中的动作值是我们基于“涟漪效应（ripple effect）”的新颖的潜在得分（potential score），其捕获了对于多维 additive KPI，一个属性组合的KPI值的改变（作为原因）如何能够引起其他属性组合的KPI值改变（作为结果）。
我们提出了一种分层剪枝方法（在精神上类似于 Apriori 原理）来进一步减少搜索空间。
我们使用一个顶级全球搜索引擎的真实世界数据，表明 HotSpot 在有效性和鲁棒性方面都比现有的两种方法有了很大的改进，HotSpot对所有类型的案例的95%实现了超过90%的F-score，而对于现有方法，所有类型的案例中只有不到15%具有超过90%的F-score。
我们的实践经验表明，HotSpot 可以将手动工作的本地化时间从 1 小时以上缩短到 20秒以内。

20.3.2 问题定义

此部分描述了论文解决的是一个什么样的问题，先从定义出发：

在这里插入图片描述
这里是指接下来的论文、实验中可能用到的条目（term）的介绍说明，在公式中也会用到，这里我们详细介绍一下：

条目	定义	标识	举例
属性	每条PV记录的信息类别	-	$\text{Province (P), ISP(I), DC(D), Channel(C)}$
属性值	每个属性的候选值	-	$\text{{Beijing, Shanghai, Guangdong} for Province(P)}$
元素	每个属性的不同值的组合向量	$e = (p, i, d, c)$	$\text{(Beijing,,,), (,Mobile,,), (Beijing, Mobile,,)}$
PV值	根据元素的访问日志数	$v(e_i)$	$v(\text{Beijing,,,*})$
数据立方体	多维数据的数据结构	${n-d} \ cube$	维度为{P，I，D，C}的四维数据立方体
长方体Cuboids	长方体是一个数据立方体，其维度在所有给定维度的子集中	$B_i$	${B_P, B_{P,I}, B_{P,I,D},...\}$ for the 4-d data cube with the dimensions $\text{\{P, I, D, C\}}$
潜在得分Potential Score	衡量一组元素成为根本原因的潜力的概念	$p s$	$p s (S)$ ， $S=\{\text{(Beijing, , , ), (, Mobile, , )}\}$

下面的两个表用来表示 PV 例子，网站上的PV记录可以有几个属性。例如，“10:00:01（时间戳）；北京、移动、DC1、Channel1“为记录，北京、移动、DC1、Channel1分别根据地区§、ISP(I)、数据中心(D)和频道©四个属性为候选值，其中 $P=\{p\}$ 、 $I=\{i\}$ 、 $D=\{d\}$ 、 $C=\{c\}$ 分别为地区、ISP、数据中心和 ADS 频道的36、10、6、10个不同值的集合。 $P$ 和 $I$ 的值基于客户端 IP，并分别使用 IP 到地理定位数据库和 BGP 表进行解析。每个地区的 ISP 都是一个独立的公司，因此相同的 ISP 名称在不同的地区往往表现不同。渠道是不同广告市场的标签，如医疗或教育。表2 显示了PV记录的一些示例。
在这里插入图片描述
不同属性值组合的向量在本文中称为元素（element），表示为 $e = (p, i, d, c)$ ，其中 $p\in P$ 或者 $p = *$ , $\in I$ 或者 $i = *$ , $d\in D$ 或者 $d = *$ , $c\in C$ 或者 $c = *$ , 这里的 $*$ 是通配符，当 $e = (p, i, d, c)$ 在每一个时间尺度（如本文中的尺度为每分钟）中，我们根据一个元素 $e$ 来计算 PV 记录的数目，并将这个数字称为该元素的 PV 值，用 $v (e)$ 表示，即 $v (e) =$ 在特定时间尺度上的#个记录。表3 显示了与表2中的PV记录相对应的PV值。
在这里插入图片描述
所有这些最细粒度元素的集合，如表3 中的元素，用叶子表示： $\text{LEAF}=\{e|e=(p,i,d,c), p \neq*, i \neq *, d \neq * , c \neq * \}$ 。当一个或多个属性值为 * 时，其他元素都可以基于 Leaf 中的元素求和。例如，对于表 3 中 10:00（从10:00:00到10:00:59) 的三个元素，我们可以获得更粗粒度元素的值，例如：

$\begin{array}{c} v\left(\text { Beijing, Mobile, } D C_{1}, *\right)=2+1=3, \\ v(\text { Bei jing }, *, *, *)=2+1+3=6 . \end{array}$

根据聚集程度的不同，我们将元素划分为不同的集合，每个集合对应一个长方体。长方体是数据立方体的子立方体，数据立方体是一种数据结构，允许在多维度上建模和查看数据[3]，例如，叶的元素构成一个4-D数据立方体，如图所示 1. 长方体表示为 $B_i$ （ $i$ 可以是 $P$ 、 $I$ 、 $D$ 和 $C$ 中的任意组合），例如， $B_P$ 是一维长方体， $B_{P,I,D}$ 是三维长方体。长方体的元素集 $B_i$ 用 $E(B_i)$ 来表示，比如， $E\left(B_{P}\right)=\{e \mid e=(p, *, *, *), p \neq *\}$ ， $E\left(B_{P, I, D}\right)=\{e \mid e=(p, i, d, *), p \neq *, i \neq *, d \neq *\}$ ， $LEAF=E\left(B_{P, I, D, C}\right)$ 。

在这里插入图片描述

此外，我们构造长方体并为其标记层ID，如图所示 2. 另外，我们让 $B_P$ 或 $B_I$ 是 $B_{PI}$ 的父长方体， $B_{P,I}$ 是 $B_P$ 或 $B_I$ 的子长方体。因此，长方体的元素都具有父子结点关系，比如 $*)\left(\in E\left(B_{P}\right)\right)$ 和 $*)\left(\in E\left(B_{P, I}\right)\right)$ 。
在这里插入图片描述
论文中使用 $e^{\prime}=\left(p^{\prime}, i^{\prime}, d^{\prime}, c^{\prime}\right)$ 表示 $e = (p, i, d, c)$ 的后代，其中 $e\neq e^{\prime}$ ， $p^{\prime} = p$ 或者 $p = *$ ， $i^{\prime} = i$ 或者 $i = *$ ， $d^{\prime} = d$ 或者 $d = *$ ， $c^{\prime} = c$ 或者 $c = *$ 。 $Desc(e)=\{e^{\prime} | e^{\prime}$ 是 $e$ 的后代 $\}$ ， ${Desc}^{\prime}(e)=\{ e^{\prime} | e^{\prime} =(p,i,d,c) \in LEAF, p\neq *, i \neq *, d \neq *, c \neq *\}$ 。如果 $\in LEAF$ ，PV 值 $v (e)$ 可以直接评估，否则

$v(e)=\sum_{e^{\prime} \in \operatorname{Desc}^{\prime}(e)} v\left(e^{\prime}\right) \tag{1}$

比如，

$v(\text { Beijing }, *, *, *)=\sum_{j, k, h} v\left(\text { Beijing }, i_{j}, d_{k}, c_{h}\right) \tag{2}$

$\text { Total } P V=v(*, *, *, *)=\sum_{i, j, k, h} v\left(p_{i}, i_{j}, d_{k}, c_{h}\right) \tag{3}$

20.3.3 问题陈述

addictive KPI（多维属性）异常定位问题是识别最有可能导致总KPI值异常变化的长方体及其元素。

为了陈述清楚这个问题，我们在表4 和表5 中举了一个简单的例子。表4表示了一个2维属性 PV 结构。存在两个一维长方体， $B_P$ 和 $B_I$ ，一个二维长方体 $B_{PI}$ 。每个长方体包含一组元素，即 $E(B_{P})=\{Beijing，*),（Shanghai，*),（guangdong，*)\}$ ， $E(B_I)=\{(*, Mobile），(*, Unicom）\}$ ， $Leaf=E(B_{P,I})=\{(Beijing，Mobile)，(Shanghai，Mobile)，(guangdong，Mobine)，(Beijing，Unicom)，(Shanghai，Unicom)，(Guangdong，Unicom)\}$ 。 $v (p, i)$ 显示在表格的单元格中，例如 $v (B e ijin g, M o bi l e) = 20$ ， $v (B e ijin g, *) = 30$ 。
在这里插入图片描述

当总PV异常时，PV变化如表5所示。在每个单元格中，第一个数字是预测PV值 $f (p, i)$ ，第二个数字是实际PV值 $v (p, i)$ （如何检测总PV和计算元素的预测值将在第四节 A 中介绍）。总 PV 的预测值为100，而实际 PV 值仅为75（表5的右下角）。因此，由于总PV的异常变化 $v (*, *) = 75$ 比触发异常定位的 $f (*, *) = 100$ 小得多，因此触发异常定位。

对于 $B_P$ $B_I$ 和 $B_{P,I}$ 三个长方体，它们可以从不同的角度表达 PV KPI。当总PV发生异常变化时，这三个长方体中的每一个都受到影响。如表5所示，每个长方体（阴影细胞）中都有一些异常元素。在现实中，操作员需要确定哪个长方体和这个长方体的哪些元素是这种异常的最潜在的根本原因。然后他们可以开始尝试修复异常并减轻损失。因此，对于可加性KPI的异常定位问题可以重述如下：

有效和高效地识别总KPI值异常的最潜在的根本原因，即一个特定长方体 $B_i$ 的元素子集。根因集合 $\subseteq E\left(B_{i}\right)$ 。

注意，这个定义允许在同一个长方体中的多个元素作为根本原因集。例如，表5 中示例的根本原因集是 $=\{(\text { Beijing }, *),(\text { Shanghai }, *)\}$ 。但这一定义排除了多个长方体同时存在根源的情况，这在现实中极为罕见。还要注意，我们只处理总KPI值异常的情况。

20.4 核心思路

论文提出了潜在得分（Potential Score）作为度量函数，并应用蒙特卡罗树搜索(MCTS)算法和分层剪枝策略克服了搜索空间过大的问题。

20.4.1 评估数据集中的潜在得分 Potential Score for measuring the potential of sets

在我们的异常定位问题中，一个可以用来“全局”比较不同元素集的根本原因“潜力”的度量。然而，正如第一个挑战所示，这样的度量并不容易开发，简单的度量也不起作用。

我们对这个潜在得分的想法是基于以下直觉：当根原因元素的KPI值发生变化时，它的所有后代叶元素的KPI值也相应地发生变化。因此，候选根本原因元素的“潜在得分”是用来衡量该元素的后代叶元素的预期变化和实际变化之间的差异。详见§IV-B2。另外，MCTS需要潜在分数作为一个价值函数来指导搜索。

20.4.2 高效搜索的MCTS和分层剪枝 MCTS and Hierarchical Pruning for efficiently searching

该问题的搜索空间巨大，需要一种有效的搜索算法。本文的思路是采用一些已知的善于在大空间中搜索的先进算法，而不是像文献 [1]、[2] 那样在小得多的搜索空间中用它们更简单的异常定位来发展有机的启发式算法。受 AlphaGo 在围棋中成功采用 MCTS 算法文献[4]、[5]的启发，本文的核心思想是将 MCTS 算法作为异常定位算法的基础。然而，在采用 MCTS 方面仍然存在一个剩余的挑战，我们现在总结我们的核心思想来解决这些问题。

来自图 2我们可以看到，当我们从低层到高层时，长方体中元素 $n$ 的数量变得越来越多。例如，在 $B_P$ 中有36个元素， $B_{P,I}$ 中有 $36 * 10$ ， $B_{P,I,D,C}$ 中有 $36 * 10 * 6 * 10$ 。回想根本原因集是长方体的(2n-1)个子集之一。即使对MCTS来说，搜索如此巨大的空间也不是一件容易的事情。

为了进一步缩小搜索空间，Hotspot 采用了分层剪枝策略。基本思想是，在搜索较低层之后，HotSpot 会剪除一些不太可能是根本原因元素的元素（在较高层）。直觉是，如果父元素有一个非常低的潜在得分，每个子元素不太可能是根本原因元素，因此可以剪枝。这种方法在精神上与关联规则挖掘中的Apriori原理非常相似[3]。我们称我们的剪枝方法为层次剪枝，因为它的剪枝策略利用了层的层次信息。

20.4.3 总体办法 Overall Approach

HotSpot的核心思想概括如下。我们把这种异常定位看作是一个空间很大的搜索问题；采用MCTS作为基本搜索算法；提出了一个对异常定位具有物理意义的潜在得分度量作为每一集合的潜在度量和MCTS中的值函数；应用分层剪枝方法（类似于Apriori原则）来减少搜索空间。搜索从第1层开始，逐层进行，在每个长方体内应用MCTS，如图所示 3.

在这里插入图片描述

20.5 HotSpot 的设计

本部分介绍了Hotspot的详细设计。 HotSpot逐层搜索长方体的集合，即从第1层到第L层（L为层数）。对于给定层的每一个长方体，Hotspot应用MCTS寻找其具有最大潜在得分(PS)的子集，称为该长方体的最佳集（缩写为BSet）。当从一层到下一层时，使用分层剪枝。我们重复这个过程，直到层 $L$ 被搜索，或者得到根本原因集 $RS e t$ （ $p s (RS e t) > PT$ ），其中 $PT$ 是指 $p s$ 的阈值。当 $p s > PT$ 时，我们认为它足够大，可以被视为根本原因集。最终输出 $RS e t$ 是算法生成的所有 $BS e t$ 中 $p s$ 最大的 $BS e t$ 。接下来，我们描述一种检测总KPI和预测本节中元素的方法。然后给出了热点的各个组成部分，即潜在得分、MCTS和分层剪枝。

20.5.1 异常检测与预报 Anomaly Detection and Forecast

HotSpot 需要一个异常检测算法（1）来检测总KPI中的异常，算法（2）来计算其他元素的预测值。

我们采用了业界广泛使用的统计算法对总KPI进行异常检测文献 [6]。均值 $\mu$ 和标准差 $\sigma$ 在一个周期中一个时间间隔进行计算（在我们的案例中间隔为 1 分钟），其中的 $\mu$ 被视为预测值。阈值（ $T_l$ 和T_u分别代表下限和上限）定义如下：

$T_l = \mu - c \times \sigma ,\ T_u = \mu + c \times \sigma \tag{4}$
其中 $c$ 是确定上下限的程度的参数（通常设置为2.0）参考文献 [6]。请注意，阈值是定期更新的。如果实际值超过阈值，则检测异常。该算法适合于我们的场景，因为1）它非常适合于 addictive KPI数据，因为大多数加性KPI数据是周期性的；2）它计算效率高。

20.5.2 潜在得分 Potential Score

在这里插入图片描述
(1) 波纹效应(Ripple effect)：我们在表VI中使用了一个新的异常案例来说明根本原因元素的KPI变化是如何根据我们总结的“涟漪效应”传播到其他元素的。 $(B e ijin g, *)$ 的 PV 值从 30（ $f (B e ijin g, *)$ ）下降到 12，并且 $(B e ijin g, *)$ 是本例中唯一一个根因元素（其他的没有变化）。由于 $v (B e ijin g ， *)$ 是由它的后代元素 $v (B e ijin g ， M o bi l e)$ 和 $v (B e ijin g, U ni co m)$ 聚合而成的，它们一定发生了相应的变化。注意它们的变化值， $h (B e ijin g, *) = 18$ ， $h (B e ijin g, M o bi l e) = 12$ ， $h (B e ijin g, U ni co m) = 6$ 。我们通过公式 $h(Beijing,*)\times \frac{f(Beijing, Mobile)}{f(Beijing, *)}$ 可以得出实际值 $v (B e ijin g, M o bi l e) = 8$ 的比例份额。此外， $h (B e ijin g, M o bi l e)$ 反过来也促进了 $v$ 的变化 $v (*, M o bi l e)$ 。

上面的示例说明了根本原因元素是如何影响其后代元素（在LEAF中）和其他共享其共同后代元素的元素的。通常，当根本原因元素的值增加或减少时，它遵循如下波动效应特性：

设 $x$ 表示不在 $L E A F$ 中的元素，即 $\notin LEAF$ 。设 $x_{i}^{\prime}$ 表示 $x$ 在 $L E A F$ 中的后代元素，即 $x_{i}^{\prime} \in {Desc}^{\prime}(x)$ 。当 $x$ 的 PV 值通过 $h (x)$ 改变以后，即 $h (x) = f (x) - v (x)$ ， $x^{\prime}_i$ 将根据他们的预测值的比例得到其 $h (x)$ 的份额，即，

$v\left(x_{i}^{\prime}\right)=f\left(x_{i}^{\prime}\right)-h(x) \times \frac{f\left(x_{i}^{\prime}\right)}{f(x)},(f(x) \neq 0) . \tag{5}$

然后使用公式 1 更新 $x_{i}^{\prime}$ 祖先的所有其他元素 $e$ 。上面的涟漪效应描述了根本原因只包含一个元素的情况。当涉及到一个集合（两个或多个元素）时，我们可以为每个元素重用该属性。

(2) 潜在得分(Potential Score)：涟漪效应揭示了根本原因集如何影响许多其他元素的值。因此，为了衡量一个集合的潜在性是根本原因，我们建议1）假设集合 $S$ 是根本原因，2) 根据波纹效应推导叶中后代元素的新PV值，3) 将所有实际PV值与新推导的叶元素PV值进行比较。两种值越接近，该集合就越有可能成为根本原因集。

设 $y_{1}, y_{2}, y_{3}, \ldots, y_{n}$ 表达 $L E A F$ 中所有元素。我们用 $a(y_i)$ 表示一个假定的根因集 $S$ 的新推导的 PV 值。我们计算两种条件下的 $a(y_i)$ 的值：

$\nsubseteq LEAF$ : 如果 $y_i \notin {Desc^{\prime}}(S)$ ， $a(y_i) =f(y_i)$ ；否则，根据公式5计算 $a(y_i)$ 的值。
$\subseteq LEAF$ : 如果 $y_i \notin {Desc^{\prime}}(S)$ ， $a(y_i) =f(y_i)$ ；否则， $a(y_i)=v(y_i)$

设 $\vec{a}$ 表示 $a(y_i)$ 组成的向量，即 $\vec{a} = [a(y_1), a(y_2), \ldots ,a(y_n)]$ 。类似地，设 $\vec{v} =[v(y_1), v(y_2), \ldots ,v(y_n)]$ ， $\vec{f}=[f(y_1), f(y_2), \ldots ,f(y_n)]$ 。

接着我们定义集合 $S$ 的潜在得分（Potential Score, ps）为：
$=\max \left(1-\frac{d(\vec{v}, \vec{a})}{d(\vec{v}, \vec{f})}, 0\right) \tag{6}$
其中， $d(\vec{u}, \vec{w})$ 表示向量 $\vec{u}$ 和 $\vec{w}$ 之间的距离。这里我们采用欧几里得距离：

$d(\vec{u}, \vec{w})=\sqrt{\sum_{i}\left(u_{i}-w_{i}\right)^{2}} \tag{7}$

集合的潜在得分范围为0～1，即[0,1]。如果一个集合有更高的得分，它将被认为有更高的潜力成为根本原因。

上述潜在分数的定义是“全局”的，即任意两个元素集都可以比较它们的潜在分数，以确定哪一个具有更大的潜在分数。这在MCTS中起到了很好的价值函数的作用。

当两个元素集具有相同的潜在得分时，我们遵循一个“简洁”原则。也就是说，元素数目较少的元素获胜，要么遵循奥卡姆剃刀原理[1]，要么因为一个集合中的元素集体是另一个集合中的元素的祖先（首选为根本原因）。

(3) 一个示例：现在我们说明如何根据表5 中案例的潜在得分来找到根本原因。长方体由 $B_p$ ， $B_I$ 和 $B_{P,I}$ 组成。首先会找到每个长方体的最佳集合（这个长方体潜在得分最大的子集）。接下来，我们通过比较最佳集合来选择根本原因集合。 $\vec{y}$ 按照如下顺序代表：[(Bei jing;Mobile); (Shanghai;Mobile); (Guangdong;Mobile); (Bei jing;Unicom); (Shanghai;Unicom); (Guangdong;Unicom )]， $\vec{f}=(20,15,10,10,25,20)$ ， $\vec{v}=(14,9,10,7, 15, 20)$ 。对于长方体 $B_P$ ，它包含三个元素（Beijing，*)、(Shanghai，*)和 (Guanguone，*)，所以所有的子集都是 $S_{p1}=\{(Beijing，*)\}$ ， $S_{p2}=\{(Shanghai，*)\}$ ， $S_{p3}=\{(Guangdong，*)\}$ ， $KaTeX parse error: Expected '}', got 'EOF' at end of input: …，(shanghai，*)\}$ ， $S_{p5}=\{(Beijing，*)，(guanguon，*)\}$ ， $S_{p6}=\{(Shanghai，*)，(guanguon，*)\}$ 和 $S_{p7}=\{(Beijing，*)，(shanghai，*)，(guanguon，*)\}$ 。以集合 $S_{p1}$ 为例，根据公式 5 我们可以推导出 $\vec{a}(S_{p1})) =(14,15,10,7,25,20)$ ，从而可以计算 $ps(S_{p1})=0.13.$ 。实际上，我们可以发现 $S_{p4}$ 和 $S_{p7}$ 都有最大的 $p s$ 值， $ps(S_{p4})=ps(S_{p7})=1$ 。总而言之， $S_{p4}$ 是 $B_p$ 中最好的集合。类似地，可以得到 $B_I$ 和 $B_{P,I}$ 中的最佳集合， $S_{i3}=\{(*, Mobile), (*, Unicom)\}$ ， $ps(S_{i3})=0.47$ （ $\vec{a}(S_i3)=(14,9,10,7,15,20)$ ）， $S_{pi1}=\{(Bei jing,Mobile), (Bei jing,Unicom), (Shanghai,Mobile), (Shanghai,Unicom)\}$ ， $ps(S_{pi1})=1$ （ $\vec{a}(S_{pi1})=(14,9,10,7,15,20)$ ）。比较三个最优集， $S_{p4}$ 是 $p s$ 最大、最简洁的结果集。

上面的例子说明了我们使用潜在分数来识别根本原因集的核心思想。实际上，元素太多了，所以可能的集合数量非常大，尤其是在较高层的长方体中。为了解决这个问题，我们采用了MCTS算法和层次剪枝策略，这将在下面介绍。同时，利用这两种方法可以得到简洁的结果。

20.5.3 MCTS 算法

对于给定的长方体 $B$ ，我们想要获得最佳集（这个长方体潜在得分最大的子集）。假定 $E (B)$ 中有 $n$ 个元素。在B中对根原因集的搜索空间是2n-1，对于大 $n$ 来说，这显然是非常大的。 HotSpot 采用 MCTS 主要是为了应对搜索空间爆炸的挑战。

MCTS是一种启发式方法，通过在决策空间中抽取随机样本，根据已有的随机样本的结果建立搜索树，在给定的决策域中搜索最优决策。在很高的层次上，MCTS试图平衡沿着那些有希望的分支的开发和沿着那些未被开发的分支的开发。它在人工智能(AI)领域被广泛应用于可以表示为顺序决策树的领域，特别是游戏和规划问题[4]，如 AlphaGo[5]。

在MCTS中，每个节点代表一个状态 $S$ （根可以看作是️ $\varnothing$ )。一个行动空间 $A (S)$ 包含在 $S$ 上可以采取的所有法律行动。通过采取合适的行动，算法可以经过路径 $(s, a)$ 从一个状态 $s$ 移动到另外一个，记作 $\in A(s)$ 。可以有与边相关联的变量，算法使用这些变量来指示在状态 $s$ 采取行动 $A$ 的 “value”。

我们采用MCTS来解决长方体的异常定位问题，如下所示。我们首先对这个长方体中的每个 $e$ 计算 $p s (e)$ ，并根据 $p s (e)$ 对所有 $e$ 进行排序。每个状态 $s$ 对应于当前正在探索的候选根本原因集 $S (s)$ 。 $N (s)$ 是 $s$ 被访问的次数。我们为每个边 $(s ， a)$ 设置三个变量。 $N (s ， a)$ 是访问计数，即该边(s，a)被访问的次数。 $p s (S (s))$ 是集合 $S (s)$ 的得分。假定 $S$ 在 $(S ， A)$ 之后跃迁到 $S^\prime$ 。则边 $(S, A)$ 的作用值 $a)=\max _{u \in\left\{s^{\prime}\right\} \cup \text { descendent }\left(s^{\prime}\right)} p s(S(u))$ ，该作用值等于树中 $S^{\prime}$ 及其子节点的最大潜在得分。对于每个 $S$ 将 $Q (s, a)$ 初始化为 $PS (S (s))$ 。

在这里插入图片描述
现在我们来说明MCTS迭代在我们的异常定位中的四个步骤。假设在当前迭代开始时，状态树如图所示 4(a)。

(a) 选择 此步骤的目标是从当前状态树中选择一个要展开的节点。每次执行此步骤时，树遍历总是从根状态开始。假设在这个选择步骤中我们已经前进到当前状态 $s$ 。如果 $A (s)$ 中的所有动作都在以前的迭代中被访问过，则通过使用上限置信阈值(Upper Confidence thresholds, UCB)算法 [7]，从可用动作 $A (s)$ 的集合中选择动作 $a$ ，如公式8所示。

$a=\underset{a \in A(s)}{\arg \max }\left\{Q(s, a)+C \sqrt{\frac{\ln N(s)}{N(s, a)}}\right\} . \tag{8}$

$Q (s, a)$ 是采取移动 $a$ 的值。 $Q (s, a)$ 值越高，在该选择步骤中选择移动 $a$ 的机会越大，这是 MCTS 中的利用机制。等式的第二部分只是用于探索的标准 UCB 机制。可以通过修改 $C$ 来改变利用与研究（exploitation and exploration）之间的平衡，一个常用的 $C$ 值是 $\sqrt{2}$ 文献[8]，我们在本文中选择这个值，也可以在实践中根据经验选择这个值。

如果存在根本没有被用过的动作 $\in A(s)$ ，因为 $N (s, a = 0$ 所以不能应用公式 8 。相反，我们将采取未访问操作的概率指定为 $R=(1-Q(s,a_{max}))$ ，其中 $a_{max} = \argmax_{a\in A(s)\cap N(s,a)=0}Q(s,a)$ 。

选择步骤从树的根部开始，并在根据公式8选择叶子状态时停止或者选择一个未访问的动作。比如，在图4(a) 中的实线包含的部分，选择叶状态 ${e_1,e_3\}$ 时停止选择。

(b) 扩展 在选择步骤中选择状态 $S$ 之后，我们通过添加一个新节点 $S^\prime$ 来扩展蒙特卡罗树，其中 $S\left(s^{\prime}\right)=S(s) \cup\left\{e^{*}\right\}$ ， $e^{*}=\arg \max _{e \in\left\{e_{1}, e_{2}, \ldots, e_{n}\right\}-S(s)} p s(e)$ 。我们选择 $e^{*}$ 使其具有剩余元素中最大的 $p s (s)$ 值，而不是随机选择 $e^{*}$ 。比如，在图4(b)中， $S(s)=\{e_1,e_3\}$ 被选中后， $e^{*}=e_4$ 会被添加，得到 $s^{'}$ ，并且 $S(s'=\{e_1,e_3,e_4\}$ 。

(d) Backup 从 $S^{\prime}$ 到根的路径上的所有节点上的动作值 $Q$ 和访问计数 $N$ 都将更新，如图4(d) 中的粗体箭头所示，回想 $Q$ 的定义，沿着这条路径，我们只有当子节点的 $Q$ 大于父亲的 $Q$ 时才更新父亲的 $Q$ 。

在长方体中本地化根本原因集。我们在每个长方体中应用MTCS，对此我们迭代执行上述四个步骤，直到至少出现以下三个条件之一：

找到了一个最佳集合，即如果 $ps(S)\ge PT$ ，满足条件 $BS e t = S$ ；
对集合的所有可用节点进行扩展；
迭代时间大于经验配置的最大数 $M$ 。

在第二个终止条件和第三个终止条件下，如果我们没有得到一个 $PS$ 大于 $PT$ 的集合，我们将返回 $PS$ 最大的 $BS e t$ 作为 $RS e t$ 。

20.5.4 分层剪枝 Hierarchical Pruning

为了进一步减少高层长方体的搜索空间，Hotspot采用了分层剪枝策略。其基本思想是，Hotspot 逐层搜索长方体，即从第1层到第 $L$ 层，在搜索到较低的一层后，在较高的一层中剪除一些不太可能是根本原因的元素。

对于层 $L$ ( $1\leq l \leq L$ ) 中的每一个长方体 $B$ ，利用 MCTS 算法可以得到最优集（该长方体潜在得分最大的子集） ${BSet}_{l,B}$ 。我们的直觉如下。如果 $l + 1$ 层中的一个元素 $p_1，i_1，*，*)$ 具有较高的潜在得分，那么它在 $l$ 层中的父元素 $P_1，*，*，*)$ 和 $i_1，*，*)$ 也将具有相对较高的潜在得分。因此，如果父元素的潜在得分很低，那么每个子元素都不太可能是根本原因元素，尽管可能有很少的情况，子元素 $a$ 的潜在得分确实高于其父元素，但其他一些子元素 $b$ 的 PV 变化抵消了 $a$ 对父元素潜在得分的影响。因此，如果层 $l$ 中的一个元素不在 $BSet_{l,b}$ 中，HotSpot会选择剪除它的所有子元素。这种方法在思路上与关联规则挖掘中的Apriori原理非常相似[3]。我们称我们的剪枝方法为层次剪枝，因为它的剪枝策略利用了层的层次信息。

在这里插入图片描述

我们以表7中的一个例子来说明我们在图5的分层剪枝方法。假设我们在第1层，使用 MCTS 获得的最佳集合是 $BSet_{1,B_P}=\{(Fujian,*),(Jiangsu,*)\}$ 和 $ps(BSset_{1,B_l}=\{(*,Mobile)，(*, Unicom)\}$ 其中， $ps(BSset_{1,B_l}=0.32$ 。在第2层搜索长方体时，由于元素 $(Z h e jian g, U ni co m)$ 和 $(Z h e jian g, U ni co m)$ 的父元素 $(Z h e jian g, *)$ 不在第1层的 BSets 中，所以我们对元素 $(Z h e jian g, U ni co m)$ 进行剪枝。因此，我们只需要搜索剩下的四个元素来寻找 $B_{P,I}$ 。这样，潜在集的数量将从 63 减少到 15( $2^6-1$ 到 $2^4-1$ )。然后在第2层再次使用MCTS，得到 $RSet=BSet_{2,B_{P,I}}=\{(Fujian, Mobile),(Jiangsu,Unicom)\}$ ，其中 $ps(BSet_{2,B_{P,I}})=1$ 。

在这里插入图片描述

20.5.5 算法总览

我们现在总结我们的总体热点算法，其伪代码如算法1所示。 HotSpot以元素的 PV 值、潜在阈值 $PT$ 和最大迭代次数 $M作为输入。它从第1层开始，对于给定层的每个长方体，Hotspot应用MCTS来找到其最佳集合。当从一层到下一层时，使用分层剪枝。我们重复这个过程，直到搜索到层 $L$ ，或者得到根本原因集 $R se t (P s (R se t) > PT)$ 。最终输出的 $RS e t$ 是算法生成的所有 $BS e t$ 中 $PS$ 最大的 $BS e t$ 。
在这里插入图片描述
算法步骤描述清晰，代码中还添加了注解，容易理解，这里不复介绍。

20.6 论文结构

引言：
- 引言部分介绍了异常检测在关键绩效指标（KPI）分析中的重要性和挑战。
- 讨论了传统的异常检测方法在处理多维属性和异常定位方面的限制。
相关工作：
- 综述了与异常检测和异常定位相关的研究工作。
- 分析了现有方法在处理多维属性和异常定位问题上的优缺点。
方法：
- 详细介绍了论文提出的 “HotSpot” 方法，用于多维属性的异常定位。
- 解释了该方法的整体框架和关键步骤。
- 描述了异常评分计算、热点位置确定和异常定位结果生成等关键技术。
实验设计：
- 介绍了使用的数据集和评估指标。
- 解释了实验设计和设置，包括参数调整和性能评估方法。
实验结果：
- 展示了使用 “HotSpot” 方法进行异常定位的实验结果。
- 通过性能指标和可视化效果评估了该方法的有效性和准确性。
讨论：
- 对实验结果进行了讨论和分析。
- 探讨了方法的局限性和未来改进的方向。
结论：
- 总结了论文的主要贡献和实验结果。
- 强调了 “HotSpot” 方法在多维属性异常定位方面的潜力和应用前景。
- 提出了未来研究的展望。