关联规则挖掘是一种识别不同项目之间潜在关系的技术。以超级市场为例,客户可以在这里购买各种商品。通常,客户购买的商品有一种模式。例如,有婴儿的母亲购买婴儿产品,如牛奶和尿布。少女可以购买化妆品,而单身汉可以购买啤酒和薯条等。总之,交易涉及一种模式。如果可以识别在不同交易中购买的物品之间的关系,则可以产生更多的利润。
例如,如果项目A和项目B的购买频率更高,则可以采取几个步骤来增加利润。例如:
A和B可以放在一起,这样,当客户购买其中一种产品时,他不必走很远就可以购买另一种产品。
购买某一种产品的人可以通过广告活动来定位以购买另一种产品。
如果客户购买了这两种产品,则可以在这些产品上提供折扣。
A和B都可以包装在一起。
识别产品之间的关联的过程称为关联规则挖掘。
关联规则挖掘的Apriori算法
已经开发出不同的统计算法来实现关联规则挖掘,而Apriori就是这样一种算法。在本文中,我们将研究Apriori算法背后的理论,稍后将在Python中实现Apriori算法。
先验算法理论
支持度
支持是指商品的默认受欢迎程度,可以通过查找包含特定商品的交易数量除以交易总数来计算。假设我们想找到对项目B的支持。可以将其计算为:
Support(B) = (Transactions containing (B))/(Total Transactions)
例如,如果在1000个事务中,有100个事务包含Ketchup,则对项目Ketchup的支持可以计算为:
Support(Ketchup) = (Transactions cont