Prefixspan理论基础

prefixspan算法在流水交易中的挖掘
序列:Sequence
序列是一个完整的信息流,每个序列由不同元素按顺序排列,每个元素代表一个事件。
这里的事务排序是以时间为基准区分的。
子序列:
对于两个序列t、s,如果t中的每个有序元素都是s中的一个元素的子集,那么t是s的子序列。
支持度:support
见Apriori算法,概念大同小异。
前缀:prefix
对于序列A和B,A中有n个事件,若对A的前n-1个事件能在B中找到,第n个事件为B中剩下某一事件的子集,则称A为B的前缀
后缀:(前缀投影)
对于某一个前缀,序列里前缀后面剩下的子序列即为我们的后缀。如果前缀最后的项是项集的一部分,则用一个“”来占位表示。
(由于流水交易并不存在同一账户同时产生两组交易记录,所以在本算法中简化使用“
”占位的步骤)
prefixspan算法的基本步骤:
①在初始序列中,产生1-项集
②计算1-项集的支持度计数
③在初始序列中删除支持度小于阈值的项,产生新的一组序列
④以1-项集为前缀,找到1-项集第一个元素的第一个后缀序列。
⑤以后缀序列为初始序列’,产生1-项集’
⑥计算产生的1-项集’的支持度计数
⑦在初始序列’中删除支持度小于阈值的项,产生新的一组序列。
⑧若新序列为空,则返回上一步的1-项集,与前缀构成模式。若新序列不为空则继续递归。
算法核心:
产生1-项集(1)->在序列中删除1-项集中不满足阈值的元素,产生新的序列->产生频繁1-项集->遍历频繁1-项集中元素,产生后缀作为新序列->在新的序列中产生1-项集(2)->……直到->产生的1-项集(n+1)中全部元素都不满足阈值或不能产生后缀->回溯,返回1-项集(n),与1-项集(n-1)元素构成模式。
鄙人才识学浅,若有错误和不足,还望大佬赐教。
这是图解

  • 4
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值