关联规则:原理、算法与应用解析
1. 引言
关联规则发现与分类规则归纳有许多共同特征,二者都运用规则来刻画数据集中的规律。不过,它们的目标存在显著差异。分类规则归纳着重于获取预测能力,而关联规则发现则致力于为用户提供洞察,具体而言,是检测和描述数据元素之间意想不到的相互关系。
这些不同的侧重点导致了两种范式在方法和技术上的重大区别。分类规则归纳通常采用启发式搜索来寻找少量规则,这些规则共同覆盖大部分训练数据。而关联规则发现一般使用完全搜索来找出大量规则,并不考虑是否覆盖所有训练数据。
分类规则归纳系统由于专注于发现小规则集,常常需要在性能相近的替代规则之间做出选择。尽管机器学习系统可能无法区分这些规则,但由于数据中未体现的因素,这些规则对用户的价值可能有很大差异。例如,根据发现的规则制定业务规则的可行性,以及该规则与用户对领域的更广泛理解的融合程度。相比之下,关联规则发现系统会返回所有满足用户指定约束的规则,让用户自行确定哪些特定规则最有价值。
2. 市场篮子分析
现代收银机是有价值的数据采集工具。商店通常会捕获并存储顾客交易小票上的所有信息,其中包括交易中购买的商品“篮子”。市场篮子分析就是对这些篮子数据进行分析,以识别具有关联关系的商品组合。也就是说,市场篮子分析旨在找出那些在交易中出现会影响其他特定商品或商品组合出现可能性的商品组合。
有一个经典例子,一家便利店连锁企业进行市场篮子分析后发现,一次性尿布和啤酒经常被一起购买。这一意想不到的发现具有潜在价值,因为它让便利店连锁企业了解到购买一次性尿布和啤酒的顾客的购买行为。
下面是一个假设的市场篮子数据示例:
| 交易编号 | 商品组
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



