Mining Sequential Patterns by PrefixSpan算法

 prefixspan算法韩家炜老师在2001年提出的序列模式算法,该算法和他在2000提出的FP_growth算法有很大的相似之处,都避免产生候选序列。

    prefixspan算法的核心是产生前缀和对应的后缀,每次递归都将合适的后缀变为前缀。难点是类似:<a x>,<(a x)>和<(_ x)>,后两种可以做一类处理。现以下图所示的超市购物数据详细讲解,阈值是2=4*50%。

    prefixspan算法

    概念介绍:每行数据叫序列,可以理解某人第一天买了商品a,b,c,第二天又买了商品a,b,c,第三天买了商品a,c。某天买的总商品叫项目如:a,b,c。每件商品叫元素如a。

    第一步:按每个元素排序,每个元素在一个序列中即使出现多次,也只算一次,然后删除不满足阈值的元素,这里只删除了元素g,结果如下图:

   prefixspan算法
   第二步:找前缀分别为a,b,c,d,e,f的后缀,那么这些后缀是相互独立,互不影响的。这是算法的关键。前缀a和b的后缀如下图:

  prefixspan算法   prefixspan算法

这里的下划线"_"表示它就是前缀,并且该项目还有其他元素。

  第三步:在各个后缀中分别递归的讲后缀变成前缀。以前缀a为例。前缀为<a b>的后缀是:

  prefixspan算法
  后面的4表示前缀为<a b>出现了4次,分别是下面两次,第三次是空的,表示前缀<a b>后面没有项目了。前缀为<(a b)>的后缀是:

  prefixspan算法
  注意前缀<a b>和<(a b)>是有区别的。前者表示元素a,b在不同的项目里面,而后者表示元素a,b必须在同一个项目里面。这代表了两种不同的情况。这一步可以一直递归下去,知道全部后缀变成前缀为止。下面就前缀<a b>继续分析,它会生成前缀为<a b c>的后缀:

prefixspan算法
此时,再没有合适的后缀可以转换成前缀了,结束递归。前缀为<a (b c)>的后缀:

prefixspan算法
这个后缀还可以继续转换成前缀,有:

prefixspan算法
此时,再没有合适的后缀可以转换成前缀了,结束递归。于是整个前缀为<a b>的所有情况的找出来了。类似的可以找出前缀为b,c,d,e,f的部分。

论文下载地址

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值