Apriori 算法关联分析
频繁项集:经常出现在一起的物品的集合
关联规则:暗示两物品间肯恩共存在很强的关系。
一个项集的支持度:数据集中包含该项集的记录所占比例。{豆奶} {豆奶,尿布}
置信度(可信度):针对关联规则来定义的。例如 {尿布}->{葡萄酒} = 支持度{尿布,葡萄酒} /支持度{尿布} = 0.75
这意味着对于包含尿布的记录,规则对其中75%的记录都适用。
支持度,可信度是用来量化关联分析是否成功的方法。
频繁项集:是经常出现在一块的物品的集合
Apriori算法 就是 找频繁项集。
如果某个项集是频繁的,那么他的子集也是频繁的
如果某个项集市不频繁集,那么它的超集也是不频繁的。