论文笔记: 异常时序模式检测 (符号系统纠错)

闵帆

已于 2022-06-14 17:40:10 修改

阅读量188

点赞数

分类专栏：论文笔记文章标签：模式挖掘

于 2022-06-14 11:56:01 首次发布

本文链接：https://blog.csdn.net/minfanphd/article/details/125271199

版权

论文笔记专栏收录该内容

29 篇文章 3 订阅

订阅专栏

摘要: 论文提出一种挖掘 “surprise pattern” 的方法. 我应张老板的要求, 在这里对符号系统进行纠错.

1. 动机

如何定义 “surprise pattern”?

2. 总体思路

如果一个模式的出现频率与其预期频率有很大差异, 则称为 surprise pattern.
只需要用户指定一些 “正常” 数据.

3. 符号系统

符号	含义	说明
$\Sigma$	字母表
$N$	字母表大小	把原文的进行了修改
$x$ , $y$ , $u$ , $v$ , $w$	字符串	$x$ 一般表示原串, 其余为子串
$x_{[i, j]}$	$x$ 的子串
$f_x(y)$	$y$ 在 $x$ 中出现的次数 (精确匹配)	也可写为 $f (x, y)$
$\mathcal{X}$	{x_1, x_2, \dots, x_k}
$c (y)$	$\vert \{x \in \mathcal{X} \vert f_x(y) \geq 1\}\vert$	写为 $c(\mathcal{X}, y)$ 更严谨
$X$	$X_1 X_2 \dots X_k$	长度为 $k$ 的实数时序
$R$	参考数据集	“正常”数据
$P$	时序模式	从 $X$ 中获取
$n$	$x$ 的长度
$m$	$y$ 的长度
$M$	Markov 模型的阶	$\geq M + 2$

4. 方案

4.1 维度约简

将序列长度从 $k$ 变为 $n$ .
$\overline{x}_i = (n/k) \sum_{j = (i - 1)(k/n) + 1}^{i(k/n)} x_j \tag{1}$

图 1. 维度约简

注意: 图 1 中的 $\overline{X}_1$ 缺乏定义. 这种表示是错误的. 上半部分的一些竖线也画得不规范.

4.2 离散化

将实数值转换为字母.

图 2. 查找表利用高斯分布获得相应的阈值. 这个比 equal-width 或 equal frequency 看起来高大上一些.

转移矩阵
$\Pi = (\pi(y_{[1, M]}, c))_{a^{M+1}}, \tag{2}$
其中
$\pi(y_{[1, M]}, c) = \mathbf{P}(x_{[i+1]} = c \mid x_{[i - m + 1, i]} = y_{[1, m]}) \tag{2.1}$
注意:

原文使用了符号 $X_{i + 1}$ , 这个缺乏定义, 符号系统已经不一致了.
$\Pi$ 的维度为 $m + 1$ , 也就是一个 $m + 1$ 维的张量, 每一维都有 $a$ 种可能. 原文的下标不合适.
式子左边没有 $i$ , 右边凭空跑出来, 你是要搞死我迈??? 我们可不可以写成
$\pi(y_{[1, M]}, c) = \mathbf{E}_{i=M}^{n - M - 1} (x_{[i+1]} = c \mid x_{[i - m + 1, i]} = y_{[1, m]}) \tag{2.2}$
或者更加朴实无华的:
$\pi(y_{[1, M]}, c) = \frac{\sum_{i = M}^{n - M - 1}sign(x_{[i - M + 1]} = y_{[1, M]}, x_{[i+1]} = c)}{\sum_{i = M}^{n - M - 1}sign(x_{[i - M + 1]} = y_{[1, M]})} \tag{2.3}$

$\begin{array}{l}\mu(y_{[1,M]}) \\ = \mathbf{P}(x_{[i - M + 1]} = y_{[1, M]}) \\ = \mu(y_{[1, M - 1]}) \pi(y_{[1, M - 1]}, y_{[M]}) \\ = \sum_{a \in \Sigma} \mu(a y_{[1, M - 1]}) \pi(a y_{[1, M - 1]}, y_{[M]}) \end{array}\tag{3}$
4. 为了完备性, 我建议把 $x$ 补回去, 如 $\pi(x, y_{[1, M]}, c)$ . 不要一默认就把别人丢了.

注意:

这里 $a$ 代表一个字符, 与前面符号表中 $a$ 的含义不一致. 建议使用一个大写字母表示字母表的大小.
这里的 $\mu$ 使用了递归定义, 但又没有给基础, 即 $\mu(a)$ 怎么计算.
看起来 $\mu$ 是 $\mathbf{P}$ 的意思.
式子下面的 We define $Z_i$ 应改为 $Z_{i, y}$ .
第 3 行是我加的戏. 和条件概率公式 $\mathbf{P}(AB) = \mathbf{P}(A)\mathbf{P}(B \mid A)$ 一样的意思.
第 4 行使用了式子 $\mathbf{P}(A) = \mathbf{P}(A B_1) + \mathbf{P}(A B_2) + \dots + \mathbf{P}(A B_n)$ , 其中 $B_1$ 至 $B_n$ 构成了全体事件的一个划分.

$E(Z_{i, y}) = \mathbf{P}(X_{[i, i + m - 1]} = y) = \mu(y_{[1, M]}) \prod_{j = 1}^{m - M} \pi(y_{[i + j, i + j + M - 1]}, y_{[i + M]}). \tag{4}$
注意:

在原始的论文中, 下标 $i$ 非常具有误导性. 从 $E(Z_{i, y})$ 来看, 这个值与 $i$ 有密切关系, 但在式子最右边, $i$ 仅仅是一个计数器. 换言之, 这样最后算出来的东西就与 $i$ 没有关系了. 这显然不行.
$Z_i$ 改为 $Z_{i, y}$ .
$\mathbf{P}$ 里面的 $m$ 改为 $M$ . 作者笔误了.

$y$ 在 $x$ 中出现次数的均值为:
$\begin{array}{ll}E(Z_y) &= (n - m + 1) E(Z_{i, y})\\ & = (n - m + 1)\mu(y_{[1, M]}) \prod_{i = 1}^{m - M} \pi(y_{[i, i + M - 1]}, y_{[i + M]})\end{array} \tag{5}$