学术报告: 三分模式挖掘

摘要: 频繁序列模式挖掘广泛应用于时序、文本、基因工程等领域. 与模式匹配不同, 模式挖掘需要进行模式的构造, 因此更具有挑战性. 本讲座描述该领域的一个具体方向的发展历程, 以及与粒计算的关系. 带周期性通配符区间的模式对应于一定程度的模糊匹配; 将通配符区间扩展为弱通配符区间使得我们关注重要的字符或变化, 而忽略不重要的字符或变化; 三分字母表字母分成强、中、弱三个部分, 使得中间的字符即可以被关注,也可以被忽略; 多变量三分模式则应对多个变量的序列, 且支持状态转移图. 这个历程中的模式逐渐泛化, 且都有其适用范围.

1. 基础知识

1.1 序列

时间序列、文本序列、基因序列

图 1. 气温时序
图 2. 蛋白质序列

1.2 模式匹配与模式挖掘

图 3. 子序列为简单模式
  • 模式匹配是指给定模式, 在序列中查找的过程. 可以有精确匹配、模糊匹配等.
    应用: 字符串查找, 搜索引擎.
  • 模式挖掘是指从序列中挖掘出模式. 更有挑战性.
    一般是挖掘频繁模式, 否则难于界定模式的意义.
    应用: 关键词提取, 词云.
  • 可以认为模式匹配是模式挖掘的基础
图 4. 词云 (频繁词)

1.3 简单 (平凡) 模式

支持精确匹配, 如 AGTA.

2. 通配符与通配符区间

  • 带通配符模式: 如 AG?A
    假设字母表为 Σ \Sigma Σ = {A, G, C, T}, 该模式可以匹配 AGAA, AGGA, AGCA, AGTA. 既支持一定的模糊匹配.
  • 带通配符区间模式: 如 A[0,2]G[0,2]A
    它可以匹配 AGA, ATGA, AGTAA 等等, 具有相当的灵活性.

3. 弱通配符区间 [ 1 ] ^{[1]} [1]

表 1. 将波动编码
  • 弱字符通常是微弱变化的编码, 如气温的波动在 1 ∘ 1^{\circ} 1C 之内, 股票波动在 1% 之内.
  • B[0,2]b[0,2]C[0,2]B[0,2]D 中, [0, 2] 匹配的只能是弱字符.
  • 基本思想: 关注重要变化, 忽略次要变化.
图 5. (a-c) 非常相似, (d-e) 比较相似, (h-i) 不相似

4. 三分模式 [ 2 ] ^{[2]} [2]

  • 基本思想: 进一步将字母表三分为强、中、弱三个子集.
  • 反映了不同应用的需求
    • 时序: 重要变化、中等变化、微弱变化
    • 自然语言: 实词、虚词、可实可虚词
    • 氨基酸: 必须、半必须、非必须 (有点强行解释)
图 4. 字母表三分
图 5. 不同类别模式之间的关系
  • 基本定义的不同导致了新的模式, 它比已有模式更一般化, 而且更能反映 “相似而不相同”.
图 6. 不同类别模式示例. (a)–(c) 匹配 Type I 的 bBD, (d)–(f) 匹配 Type II 的 boB, (g)–(i) 匹配 Type III 的 oaA, (j)–(l) 匹配 Type IV 的 aDa, (m)–(o) 匹配 Type V 的 eDE.

5. 多变量三分模式 [ 3 ] ^{[3]} [3]

  • 基本思想: 处理多变量.
图 7. 多变量模式例
  • 水平方向 (不同变量)
    根据频繁项集挖掘获得状态的频繁度, 确定状态的分区.
  • 垂直方向 (不同时间)
    获得频繁模式
图 8. 状态集合三分
  • 进一步可视化
图 9. 状态转移模式

6. 小结

更丰富的模式定义, 更有实际意义的结果.

参考文献

[1] Chao-Dong Tan, Fan Min, Min Wang, Heng-Ru Zhang, Zhi-Heng Zhang, Discovering patterns with weak-wildcard gaps, IEEE Access 4 (2016) 4922–4932.
[2] Fan Min, Zhi-Heng Zhang, Wen-Jie Zhai, Rong-Ping Shen. Frequent pattern discovery with tri-partition alphabets. Information Sciences. 2020. 507. pp. 715–732.

@article{min2020Frequent,
  title = {Frequent pattern discovery with tri-partition alphabets},
  author = {Fan Min and Zhi-Heng Zhang and Wen-Jie Zhai and Rong-Ping Shen},
  journal = {Information Sciences},
  year = {2020},
  publisher = {Elsevier},
  volume = {507},
  pages = {715--732},
  doi = {10.1016/j.ins.2018.04.013}
}

[3] Zhi-Heng Zhang, Fan Min, Gong-Suo Chen, Shao-Peng Shen, Zuo-Cheng Wen, Xiang-Bing Zhou. Cognitive Computation. 2021. DOI: 10.1007/s12559-021-09871-4.

@article{zhang2021tripartition,
  title = {Tri-Partition State Alphabet-Based Sequential Pattern for Multivariate Time Series},
  author = {Zhi-Heng Zhang and Fan Min and Gong-Suo Chen and Shao-Peng Shen and Zuo-Cheng Wen and Xiang-Bing Zhou},
  journal = {Cognitive Computation},
  year = {2022},
  publisher = {Springer},
  doi = {10.1007/s12559-021-09871-4}
}
  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值