什么是序列模式以及它的算法机制?

80caafa7fdc101ed0ba7a1add2240cf3.jpeg


编译:布洛克斯加布

在购物篮分析数据中,常常会包含顾客购买商品的时间信息,基于时间的顺序可以形成某种序列关系,而Apriori算法只强调商品同时出现,并不关系数据中的序列信息,但是序列信息却对于预测特定事件未来的发生起着重要作用。

首先从处理的数据对象上区分Apriori算法和序列模式。Apriori算法和序列模式处理的数据对象如下:

417cef12b68407a3a25a9c41424e77e0.png

Apriori算法处理的数据对象

daf44f14b750e0d29f7847605c014d4b.png

序列模式处理的数据对象

Apriori算法只考虑商品同时出现,没有考虑顾客在不同时间点的购买情况,而序列模式则分析的是顾客在不同时间点的购买情况。序列模式中的基本概念如下:

事件:某一时间点下的购买记录,如{牛奶,面包机,面包}

项目:当前购买记录中涉及的所有商品,比如,以上序列模式处理的数据对象的项目是{牛奶,面包机,面包,橙汁,啤酒,豆奶}

序列:序列是事件的有序列表,比如,<{啤酒,面包机,豆奶},{面包,橙汁}>

efbb9a294376ceed2d62e46cb95a7063.png

K频繁序列:满足最小支持度的序列叫做频繁序列,如果该频繁序列包含的事件数为K,则称为K频繁序列。

Apriori算法的目的是挖掘频繁项集,找到关联规则,比如,有一个频繁项集为面包机->面包,则该关联规则的含义是在一次交易中买了面包机,也很可能买面包;另外,假如现有频繁序列<面包机,面包>,表示顾客在一次交易中购买了面包机,则其后期很可能回来购买面包。对于以上描述,Apriori算法告诉我们,在销售过程中,可以将面包机和面包摆放在一起,而序列模式告诉我们,如果在一段时间内面包机的销量比较好,则可以考虑加大面包的进货量。

下面介绍序列模式挖掘的GSP算法。

GSP算法也是Apriori算法类的一种,是在Apriori算法的基础上进行了细节的调整。首先是加入了时间约束min_gap和max_gap,要求原来的连续变为只要满足在规定的min_gap到max_gap之间即可;其次是加入了time_windows_size,只要在windows_size内的事件,都可以被认为是同一序列。

算法原理如下:

(1)扫描序列数据库,根据最小支持度阈值,找出1频繁序列

(2)基于1频繁序列进行连接运算,通过最小支持度阈值来产生2频繁序列

(3)根据2频繁序列,连接产生3频繁序列,基于最小支持度阈值判断所有子集是否全是频繁序列,一次进行剪枝

(4)重复上述过程,直到没有新的序列模式或者没有新的候选序列模式产生为止

参考内容:

https://blog.csdn.net/qq_31852001/article/details/78944050

https://blog.csdn.net/m0_37786726/article/details/79884396

ece454c399cade9c7457ad90a0be3744.gif

62900b4c1e6835a1373ae5079aebd659.jpeg

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值