摘要: 论文提出一种挖掘 “surprise pattern” 的方法. 我应张老板的要求, 在这里对符号系统进行纠错.
1. 动机
如何定义 “surprise pattern”?
2. 总体思路
如果一个模式的出现频率与其预期频率有很大差异, 则称为 surprise pattern.
只需要用户指定一些 “正常” 数据.
3. 符号系统
符号 | 含义 | 说明 |
---|---|---|
Σ \Sigma Σ | 字母表 | |
N N N | 字母表大小 | 把原文的进行了修改 |
x x x, y y y, u u u, v v v, w w w | 字符串 | x x x 一般表示原串, 其余为子串 |
x [ i , j ] x_{[i, j]} x[i,j] | x x x 的子串 | |
f x ( y ) f_x(y) fx(y) | y y y 在 x x x 中出现的次数 (精确匹配) | 也可写为 f ( x , y ) f(x, y) f(x,y) |
X \mathcal{X} X | {x_1, x_2, \dots, x_k} | |
c ( y ) c(y) c(y) | ∣ { x ∈ X ∣ f x ( y ) ≥ 1 } ∣ \vert \{x \in \mathcal{X} \vert f_x(y) \geq 1\}\vert ∣{x∈X∣fx(y)≥1}∣ | 写为 c ( X , y ) c(\mathcal{X}, y) c(X,y) 更严谨 |
X X X | X 1 X 2 … X k X_1 X_2 \dots X_k X1X2…Xk | 长度为 k k k 的实数时序 |
R R R | 参考数据集 | “正常”数据 |
P P P | 时序模式 | 从 X X X 中获取 |
n n n | x x x 的长度 | |
m m m | y y y 的长度 | |
M M M | Markov 模型的阶 | m ≥ M + 2 m \geq M + 2 m≥M+2 |
4. 方案
4.1 维度约简
将序列长度从
k
k
k 变为
n
n
n.
x
‾
i
=
(
n
/
k
)
∑
j
=
(
i
−
1
)
(
k
/
n
)
+
1
i
(
k
/
n
)
x
j
(1)
\overline{x}_i = (n/k) \sum_{j = (i - 1)(k/n) + 1}^{i(k/n)} x_j \tag{1}
xi=(n/k)j=(i−1)(k/n)+1∑i(k/n)xj(1)
注意: 图 1 中的 X ‾ 1 \overline{X}_1 X1 缺乏定义. 这种表示是错误的. 上半部分的一些竖线也画得不规范.
4.2 离散化
将实数值转换为字母.
转移矩阵
Π
=
(
π
(
y
[
1
,
M
]
,
c
)
)
a
M
+
1
,
(2)
\Pi = (\pi(y_{[1, M]}, c))_{a^{M+1}}, \tag{2}
Π=(π(y[1,M],c))aM+1,(2)
其中
π
(
y
[
1
,
M
]
,
c
)
=
P
(
x
[
i
+
1
]
=
c
∣
x
[
i
−
m
+
1
,
i
]
=
y
[
1
,
m
]
)
(2.1)
\pi(y_{[1, M]}, c) = \mathbf{P}(x_{[i+1]} = c \mid x_{[i - m + 1, i]} = y_{[1, m]}) \tag{2.1}
π(y[1,M],c)=P(x[i+1]=c∣x[i−m+1,i]=y[1,m])(2.1)
注意:
- 原文使用了符号 X i + 1 X_{i + 1} Xi+1, 这个缺乏定义, 符号系统已经不一致了.
- Π \Pi Π 的维度为 m + 1 m + 1 m+1, 也就是一个 m + 1 m + 1 m+1 维的张量, 每一维都有 a a a 种可能. 原文的下标不合适.
- 式子左边没有
i
i
i, 右边凭空跑出来, 你是要搞死我迈??? 我们可不可以写成
π ( y [ 1 , M ] , c ) = E i = M n − M − 1 ( x [ i + 1 ] = c ∣ x [ i − m + 1 , i ] = y [ 1 , m ] ) (2.2) \pi(y_{[1, M]}, c) = \mathbf{E}_{i=M}^{n - M - 1} (x_{[i+1]} = c \mid x_{[i - m + 1, i]} = y_{[1, m]}) \tag{2.2} π(y[1,M],c)=Ei=Mn−M−1(x[i+1]=c∣x[i−m+1,i]=y[1,m])(2.2)
或者更加朴实无华的:
π ( y [ 1 , M ] , c ) = ∑ i = M n − M − 1 s i g n ( x [ i − M + 1 ] = y [ 1 , M ] , x [ i + 1 ] = c ) ∑ i = M n − M − 1 s i g n ( x [ i − M + 1 ] = y [ 1 , M ] ) (2.3) \pi(y_{[1, M]}, c) = \frac{\sum_{i = M}^{n - M - 1}sign(x_{[i - M + 1]} = y_{[1, M]}, x_{[i+1]} = c)}{\sum_{i = M}^{n - M - 1}sign(x_{[i - M + 1]} = y_{[1, M]})} \tag{2.3} π(y[1,M],c)=∑i=Mn−M−1sign(x[i−M+1]=y[1,M])∑i=Mn−M−1sign(x[i−M+1]=y[1,M],x[i+1]=c)(2.3)
μ
(
y
[
1
,
M
]
)
=
P
(
x
[
i
−
M
+
1
]
=
y
[
1
,
M
]
)
=
μ
(
y
[
1
,
M
−
1
]
)
π
(
y
[
1
,
M
−
1
]
,
y
[
M
]
)
=
∑
a
∈
Σ
μ
(
a
y
[
1
,
M
−
1
]
)
π
(
a
y
[
1
,
M
−
1
]
,
y
[
M
]
)
(3)
\begin{array}{l}\mu(y_{[1,M]}) \\ = \mathbf{P}(x_{[i - M + 1]} = y_{[1, M]}) \\ = \mu(y_{[1, M - 1]}) \pi(y_{[1, M - 1]}, y_{[M]}) \\ = \sum_{a \in \Sigma} \mu(a y_{[1, M - 1]}) \pi(a y_{[1, M - 1]}, y_{[M]}) \end{array}\tag{3}
μ(y[1,M])=P(x[i−M+1]=y[1,M])=μ(y[1,M−1])π(y[1,M−1],y[M])=∑a∈Σμ(ay[1,M−1])π(ay[1,M−1],y[M])(3)
4. 为了完备性, 我建议把
x
x
x 补回去, 如
π
(
x
,
y
[
1
,
M
]
,
c
)
\pi(x, y_{[1, M]}, c)
π(x,y[1,M],c). 不要一默认就把别人丢了.
注意:
- 这里 a a a 代表一个字符, 与前面符号表中 a a a 的含义不一致. 建议使用一个大写字母表示字母表的大小.
- 这里的 μ \mu μ 使用了递归定义, 但又没有给基础, 即 μ ( a ) \mu(a) μ(a) 怎么计算.
- 看起来 μ \mu μ 是 P \mathbf{P} P 的意思.
- 式子下面的 We define Z i Z_i Zi 应改为 Z i , y Z_{i, y} Zi,y.
- 第 3 行是我加的戏. 和条件概率公式 P ( A B ) = P ( A ) P ( B ∣ A ) \mathbf{P}(AB) = \mathbf{P}(A)\mathbf{P}(B \mid A) P(AB)=P(A)P(B∣A) 一样的意思.
- 第 4 行使用了式子 P ( A ) = P ( A B 1 ) + P ( A B 2 ) + ⋯ + P ( A B n ) \mathbf{P}(A) = \mathbf{P}(A B_1) + \mathbf{P}(A B_2) + \dots + \mathbf{P}(A B_n) P(A)=P(AB1)+P(AB2)+⋯+P(ABn), 其中 B 1 B_1 B1 至 B n B_n Bn 构成了全体事件的一个划分.
E
(
Z
i
,
y
)
=
P
(
X
[
i
,
i
+
m
−
1
]
=
y
)
=
μ
(
y
[
1
,
M
]
)
∏
j
=
1
m
−
M
π
(
y
[
i
+
j
,
i
+
j
+
M
−
1
]
,
y
[
i
+
M
]
)
.
(4)
E(Z_{i, y}) = \mathbf{P}(X_{[i, i + m - 1]} = y) = \mu(y_{[1, M]}) \prod_{j = 1}^{m - M} \pi(y_{[i + j, i + j + M - 1]}, y_{[i + M]}). \tag{4}
E(Zi,y)=P(X[i,i+m−1]=y)=μ(y[1,M])j=1∏m−Mπ(y[i+j,i+j+M−1],y[i+M]).(4)
注意:
- 在原始的论文中, 下标 i i i 非常具有误导性. 从 E ( Z i , y ) E(Z_{i, y}) E(Zi,y) 来看, 这个值与 i i i 有密切关系, 但在式子最右边, i i i 仅仅是一个计数器. 换言之, 这样最后算出来的东西就与 i i i 没有关系了. 这显然不行.
- Z i Z_i Zi 改为 Z i , y Z_{i, y} Zi,y.
- P \mathbf{P} P 里面的 m m m 改为 M M M. 作者笔误了.
y
y
y 在
x
x
x 中出现次数的均值为:
E
(
Z
y
)
=
(
n
−
m
+
1
)
E
(
Z
i
,
y
)
=
(
n
−
m
+
1
)
μ
(
y
[
1
,
M
]
)
∏
i
=
1
m
−
M
π
(
y
[
i
,
i
+
M
−
1
]
,
y
[
i
+
M
]
)
(5)
\begin{array}{ll}E(Z_y) &= (n - m + 1) E(Z_{i, y})\\ & = (n - m + 1)\mu(y_{[1, M]}) \prod_{i = 1}^{m - M} \pi(y_{[i, i + M - 1]}, y_{[i + M]})\end{array} \tag{5}
E(Zy)=(n−m+1)E(Zi,y)=(n−m+1)μ(y[1,M])∏i=1m−Mπ(y[i,i+M−1],y[i+M])(5)