前言
这一系列文章将介绍各种机器学习算法原理,部分算法涉及公示推导,我的博客中另有板块介绍基于python和R实现各种机器学习算法,详情见置顶的目录。本文介绍Apriori。
关联规则
关联规则(Association Rules,AR),这种原理最初应用于购物篮发现,实际上就是从大量的已知购物信息中提取出具有关联性而人们平时又不会注意到的规则,像经典的啤酒与尿布、蛋挞与飓风的案例都是对关联规则的一种诠释。
关联规则中的基础算法是Apriori,基于先验概率实现商品推荐。
Apriori算法介绍
Apriori算法是数据挖掘十大算法之一,其算法原理相对简单,主要的特征量有:项、项集、频繁项集、关联规则;主要的参数有:支持度、置信度、提升度等,下面详细介绍:
一般来说,关联规则的数据集为购物篮类数据,这类数据总体只有两个属性:id和内容,比如:id为aaa的顾客购买了香蕉、苹果、木糖醇、酸奶、面包等商品,那么所购买的每一种商品如香蕉、苹果等都是一个项(item),多个项组成项集(item set),