数据挖掘(五)频繁模式挖掘和算法
什么是频繁模式(Frequent Pattern )分析?
频繁模式:在数据集中频繁出现的模式(项集,子序列,子结构等)
- 项目集:牛奶和面包经常一起出现
- 子序列:购买PC,然后购买数码相机
- 子结构:大图中的频繁子图
在频繁项集和关联规则挖掘的背景下提出
动机:找到数据固有的规律性
- 通常一起购买什么产品? 啤酒和尿布?
- 购买电脑后,以后会购买什么
- 哪种DNA对新药敏感?
应用
- 购物篮数据分析,交叉营销,目录设计,促销活动分析,Web日志(点击流)分析和DNA序列分析
频繁模式挖掘为什么重要
频繁模式是数据集的固有和重要属性。
许多基本数据挖掘任务的基础
- 关联,关联和因果关系分析
- 顺序结构(例如子图)模式
- 时空,多媒体,时间序列和流数据中的模式分析
- 分类:区分性,频繁模式分析
- 聚类分析:基于频繁模式的聚类
- 数据仓库:iceberg多维数据集和多维数据集渐变
- 语义数据压缩:分册
- 广泛的应用