序列模式PrefixSpan算法介绍

序列

序列(sequence)是一组排好序的项集,不一定是直接连续的,但依然满足次序。序列模式的元素还可以是一个项集,如一组页面序列。序列模式挖掘比关联挖掘能得到更深刻的知识。


序列模式

sequence patternmining,针对Frequent Sequences,典型的应用还是限于离散型的序列,happens-after relationship and not just the consecutive subsequences。

可用于购买行为预测、欺诈甄别、故障预测、Web用户访问预测、人类行为规律等。

算法是各种类APRIORI算法,有AprioriAll、AprioriSome、GSP (Generalized Sequential Patterns)、SPADE(Sequential PAttern Discovery using Equivalence classes)、PrefixSpan。



与时间序列的区别

与time series mining时间序列不同,时间序列(或称动态数列)是指将同一统计指标的数值按其发生的时间先后顺序排列而成的数列。时间序列分析的主要目的是根据已有的历史数据对未来进行预测。常见MA、AR、ARMA、GARCH模型。


例子

<a(abc)(ac)d(cf)>- 9 items(项), 5 itemsets(项集), 1 sequence(序列)

<a(abc)(ac)d(cf)> = <a(cba)(ac)d(cf)>

<a(abc)(ac)d(cf)> ≠ <a(ac)(abc)d(cf)>

Min support(最小支持度)threshold - 频繁子序列的频繁度不低于最小支持度(Find all the frequent subsequences,i.e. the subsequences whose occurrence frequency in the set of sequences is noless than min_support)

Supersequence: <a(abc)(ac)d(cf)>

Sub-sequence:<aa(ac)d(c)>

Sub-sequence:<(ac)(ac)d(cf)>

Sub-sequence:<ac>

 

<a(abc)(ac)d(cf)>  α1=<a> support(α1) = 4

<(ad)c(bc)(ae)>    α2=<ac> support(α2) = 4

<(ef)(ab)(df)cb>   α3=<(ab)c> support(α3) = 2

<eg(af)cbc>


=================

PrefixSpan

前缀prefix

seq <a(abc)a> is a prefix of seq<a(abc)(ac)d(cf)>, but seq <a(abc)c> is NOT.

<a>、<aa>、<a(ab)>、<a(abc)>是序列<a(abc)(ac)d(cf)>的前缀,而<ab>、<a(bc)>不是。


后缀postfix

Seqβ <a(abc)a> is a prefix and seqγ <(_c)d(cf)> is a postfix of seqα<a(abc)(ac)d(cf)>. Denote α =β⋅γ或γ=α/β


对于序列<a(abc)(ac)d(cf)>,

<(abc)(ac)d(cf)>是前缀<a>的后缀;

<(_bc)(ac)d(cf)>是前缀<aa>的后缀;

<(_c)(ac)d(cf)>是前缀<a(ab)>的后缀;

"_"下标符代表前缀。


投影Projection

投影即投影数据库,是序列数据库S中所有相对于α前缀的后缀序列的集合。


算法

子程序:PrefixSpan(α,l, )

参数:

α指前缀序列模式;

l指α的长度;

指α的投影数据库。

算法:

1、  扫描,找出频繁项集b:
  a)b可以成为α的最后一个项集(如ab + c=> abc),或者:
  b)b可以追加到α形成新一个序列模式(如ab +_c => a(bc));

2、  对于每个频繁项b,追加到α形成新一个序列模式α’(如abc或a(bc));

3、  对于每个α’,构造α’的投影数据库,并调用prefixspan(α’, l+1, )

其过程为深度优先搜索。

  • 1
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值