数据挖掘中的模式发现(六)挖掘序列模式

序列模式挖掘是数据挖掘的一个领域,关注在时间或其他顺序中出现频繁的模式。基础概念包括序列、子序列和支持度。序列是有序的元素集合,子序列是另一个序列的一部分,而支持度衡量序列在数据中的频繁程度。挖掘序列模式的目标是找到频繁的子序列,那些支持度不低于最小阈值的模式。
摘要由CSDN通过智能技术生成

序列模式挖掘

序列模式挖掘(sequence pattern mining)是数据挖掘的内容之一,指挖掘相对时间或其他模式出现频率高的模式,典型的应用还是限于离散型的序列。。

其涉及在数据示例之间找到统计上相关的模式,其中数据值以序列被递送。通常假设这些值是离散的,因此与时间序列挖掘是密切相关的,但时间通常被认为是不同的活动。序列模式挖掘是结构化数据挖掘的一种特殊情况。

图4

基础概念

为了帮助大家理解,我这里讲序列是如何产生的稍微描述一下。

例如,一个事务数据库,一个事务代表一笔交易,一个单项代表交易的商品,单项属性中的数字记录的是商品ID

图1

一般为了方便处理,需要把数据库转化为序列数据库。方法是把用户ID相同的记录合并,有时每个事务的发生时间可以忽略,仅保持事务间的偏序关系。

图2

序列(Sequence)

通常以SID表示,一个序列即是一个完整的信息流。每个序列由不同的元素按顺序有序排列,每个元素由不同项目(或者也可以称之为事件)组成,

让我们将其符号化

例:一条序列<(10,20)30(40,60,70)>有3个元素,分别是(10,20),30,(40,60,70);

3个事务的发生时间是由前到后。其中项目10和项目20是同时发生的,所以处在同一个元素中。这条序列是一个6-序列。

子序列(Subsequence)

设序列 α=<a1a2an> ,序列 β=<b1b2bm>

评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值