论文笔记: 异常时序模式检测 (符号系统纠错)

摘要: 论文提出一种挖掘 “surprise pattern” 的方法. 我应张老板的要求, 在这里对符号系统进行纠错.

1. 动机

如何定义 “surprise pattern”?

2. 总体思路

如果一个模式的出现频率与其预期频率有很大差异, 则称为 surprise pattern.
只需要用户指定一些 “正常” 数据.

3. 符号系统

符号含义说明
Σ \Sigma Σ字母表
N N N字母表大小把原文的进行了修改
x x x, y y y, u u u, v v v, w w w字符串 x x x 一般表示原串, 其余为子串
x [ i , j ] x_{[i, j]} x[i,j] x x x 的子串
f x ( y ) f_x(y) fx(y) y y y x x x 中出现的次数 (精确匹配)也可写为 f ( x , y ) f(x, y) f(x,y)
X \mathcal{X} X{x_1, x_2, \dots, x_k}
c ( y ) c(y) c(y) ∣ { x ∈ X ∣ f x ( y ) ≥ 1 } ∣ \vert \{x \in \mathcal{X} \vert f_x(y) \geq 1\}\vert {xXfx(y)1}写为 c ( X , y ) c(\mathcal{X}, y) c(X,y) 更严谨
X X X X 1 X 2 … X k X_1 X_2 \dots X_k X1X2Xk长度为 k k k 的实数时序
R R R参考数据集“正常”数据
P P P时序模式 X X X 中获取
n n n x x x 的长度
m m m y y y 的长度
M M MMarkov 模型的阶 m ≥ M + 2 m \geq M + 2 mM+2

4. 方案

4.1 维度约简

将序列长度从 k k k 变为 n n n.
x ‾ i = ( n / k ) ∑ j = ( i − 1 ) ( k / n ) + 1 i ( k / n ) x j (1) \overline{x}_i = (n/k) \sum_{j = (i - 1)(k/n) + 1}^{i(k/n)} x_j \tag{1} xi=(n/k)j=(i1)(k/n)+1i(k/n)xj(1)

图 1. 维度约简

注意: 图 1 中的 X ‾ 1 \overline{X}_1 X1 缺乏定义. 这种表示是错误的. 上半部分的一些竖线也画得不规范.

4.2 离散化

将实数值转换为字母.

图 2. 查找表
利用高斯分布获得相应的阈值. 这个比 equal-width 或 equal frequency 看起来高大上一些.

转移矩阵
Π = ( π ( y [ 1 , M ] , c ) ) a M + 1 , (2) \Pi = (\pi(y_{[1, M]}, c))_{a^{M+1}}, \tag{2} Π=(π(y[1,M],c))aM+1,(2)
其中
π ( y [ 1 , M ] , c ) = P ( x [ i + 1 ] = c ∣ x [ i − m + 1 , i ] = y [ 1 , m ] ) (2.1) \pi(y_{[1, M]}, c) = \mathbf{P}(x_{[i+1]} = c \mid x_{[i - m + 1, i]} = y_{[1, m]}) \tag{2.1} π(y[1,M],c)=P(x[i+1]=cx[im+1,i]=y[1,m])(2.1)
注意:

  1. 原文使用了符号 X i + 1 X_{i + 1} Xi+1, 这个缺乏定义, 符号系统已经不一致了.
  2. Π \Pi Π 的维度为 m + 1 m + 1 m+1, 也就是一个 m + 1 m + 1 m+1 维的张量, 每一维都有 a a a 种可能. 原文的下标不合适.
  3. 式子左边没有 i i i, 右边凭空跑出来, 你是要搞死我迈??? 我们可不可以写成
    π ( y [ 1 , M ] , c ) = E i = M n − M − 1 ( x [ i + 1 ] = c ∣ x [ i − m + 1 , i ] = y [ 1 , m ] ) (2.2) \pi(y_{[1, M]}, c) = \mathbf{E}_{i=M}^{n - M - 1} (x_{[i+1]} = c \mid x_{[i - m + 1, i]} = y_{[1, m]}) \tag{2.2} π(y[1,M],c)=Ei=MnM1(x[i+1]=cx[im+1,i]=y[1,m])(2.2)
    或者更加朴实无华的:
    π ( y [ 1 , M ] , c ) = ∑ i = M n − M − 1 s i g n ( x [ i − M + 1 ] = y [ 1 , M ] , x [ i + 1 ] = c ) ∑ i = M n − M − 1 s i g n ( x [ i − M + 1 ] = y [ 1 , M ] ) (2.3) \pi(y_{[1, M]}, c) = \frac{\sum_{i = M}^{n - M - 1}sign(x_{[i - M + 1]} = y_{[1, M]}, x_{[i+1]} = c)}{\sum_{i = M}^{n - M - 1}sign(x_{[i - M + 1]} = y_{[1, M]})} \tag{2.3} π(y[1,M],c)=i=MnM1sign(x[iM+1]=y[1,M])i=MnM1sign(x[iM+1]=y[1,M],x[i+1]=c)(2.3)

μ ( y [ 1 , M ] ) = P ( x [ i − M + 1 ] = y [ 1 , M ] ) = μ ( y [ 1 , M − 1 ] ) π ( y [ 1 , M − 1 ] , y [ M ] ) = ∑ a ∈ Σ μ ( a y [ 1 , M − 1 ] ) π ( a y [ 1 , M − 1 ] , y [ M ] ) (3) \begin{array}{l}\mu(y_{[1,M]}) \\ = \mathbf{P}(x_{[i - M + 1]} = y_{[1, M]}) \\ = \mu(y_{[1, M - 1]}) \pi(y_{[1, M - 1]}, y_{[M]}) \\ = \sum_{a \in \Sigma} \mu(a y_{[1, M - 1]}) \pi(a y_{[1, M - 1]}, y_{[M]}) \end{array}\tag{3} μ(y[1,M])=P(x[iM+1]=y[1,M])=μ(y[1,M1])π(y[1,M1],y[M])=aΣμ(ay[1,M1])π(ay[1,M1],y[M])(3)
4. 为了完备性, 我建议把 x x x 补回去, 如 π ( x , y [ 1 , M ] , c ) \pi(x, y_{[1, M]}, c) π(x,y[1,M],c). 不要一默认就把别人丢了.

注意:

  1. 这里 a a a 代表一个字符, 与前面符号表中 a a a 的含义不一致. 建议使用一个大写字母表示字母表的大小.
  2. 这里的 μ \mu μ 使用了递归定义, 但又没有给基础, 即 μ ( a ) \mu(a) μ(a) 怎么计算.
  3. 看起来 μ \mu μ P \mathbf{P} P 的意思.
  4. 式子下面的 We define Z i Z_i Zi 应改为 Z i , y Z_{i, y} Zi,y.
  5. 第 3 行是我加的戏. 和条件概率公式 P ( A B ) = P ( A ) P ( B ∣ A ) \mathbf{P}(AB) = \mathbf{P}(A)\mathbf{P}(B \mid A) P(AB)=P(A)P(BA) 一样的意思.
  6. 第 4 行使用了式子 P ( A ) = P ( A B 1 ) + P ( A B 2 ) + ⋯ + P ( A B n ) \mathbf{P}(A) = \mathbf{P}(A B_1) + \mathbf{P}(A B_2) + \dots + \mathbf{P}(A B_n) P(A)=P(AB1)+P(AB2)++P(ABn), 其中 B 1 B_1 B1 B n B_n Bn 构成了全体事件的一个划分.

E ( Z i , y ) = P ( X [ i , i + m − 1 ] = y ) = μ ( y [ 1 , M ] ) ∏ j = 1 m − M π ( y [ i + j , i + j + M − 1 ] , y [ i + M ] ) . (4) E(Z_{i, y}) = \mathbf{P}(X_{[i, i + m - 1]} = y) = \mu(y_{[1, M]}) \prod_{j = 1}^{m - M} \pi(y_{[i + j, i + j + M - 1]}, y_{[i + M]}). \tag{4} E(Zi,y)=P(X[i,i+m1]=y)=μ(y[1,M])j=1mMπ(y[i+j,i+j+M1],y[i+M]).(4)
注意:

  1. 在原始的论文中, 下标 i i i 非常具有误导性. 从 E ( Z i , y ) E(Z_{i, y}) E(Zi,y) 来看, 这个值与 i i i 有密切关系, 但在式子最右边, i i i 仅仅是一个计数器. 换言之, 这样最后算出来的东西就与 i i i 没有关系了. 这显然不行.
  2. Z i Z_i Zi 改为 Z i , y Z_{i, y} Zi,y.
  3. P \mathbf{P} P 里面的 m m m 改为 M M M. 作者笔误了.

y y y x x x 中出现次数的均值为:
E ( Z y ) = ( n − m + 1 ) E ( Z i , y ) = ( n − m + 1 ) μ ( y [ 1 , M ] ) ∏ i = 1 m − M π ( y [ i , i + M − 1 ] , y [ i + M ] ) (5) \begin{array}{ll}E(Z_y) &= (n - m + 1) E(Z_{i, y})\\ & = (n - m + 1)\mu(y_{[1, M]}) \prod_{i = 1}^{m - M} \pi(y_{[i, i + M - 1]}, y_{[i + M]})\end{array} \tag{5} E(Zy)=(nm+1)E(Zi,y)=(nm+1)μ(y[1,M])i=1mMπ(y[i,i+M1],y[i+M])(5)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值