1、业务背景
大数据时代背景下,各行各业都有自己的数据,数据积累也越来越多,从海量的数据中,挖掘少量有效有价值的数据,是非常有必要的;如何挖掘数据的价值及数据之间存在的内在关系,是大家一直研究的问题
本篇介绍数据关联分析,关联分析可以应用于众多领域,如典型的购物车数据,通过用户的购物车分析出商品之间的关联关系,
{尿布} -> {啤酒}
当然,关联关系也可以应用于其他领域,医疗,科学数据,刑侦。。。。
2、基本概念
项: 一条记录
项集: 多个项组成的集合
序列:多个项集组成的有序集合
序列数据库: 由多个序列组成
关联规则:X -> Y , X 和 Y关联
支持度:
置信度:
频繁项集:满足最小支持的的项集
强规则:从频繁项集中提取的高置信度规则