- 关联分析
关联分析 是一种在大规模数据集中寻找有趣关系的任务。
频繁项集:经常出现在一块的物品集合。
关联规则:暗示两种物品之间可能存在很强的关系。
支持度:数据集中包含该项集的记录所占的比例。
支持度是针对项集来说的,可以定义一个最小支持度。
可信度/置信度:是针对一条诸如 { 尿布 } ^ 丨葡萄酒 } 的关联规则来定义的。这条规则的可信度被定义为 “ 支持度 ({ 尿布,葡萄酒 })/ 支持度 ({ 尿布丨)”
例如:找到支持度大于 0.8 的所有项集
Apriori算法 | |
---|---|
优点 | 易编码实现 |
缺点 | 大数据集上可能较慢 |
适用数据类型 | 数值型或标称型数据 |