应用举例:餐饮企业菜品搭配; 搜索引擎内容的推荐;新闻流行趋势的分析。
TID | ITEMS |
001 | Cola, Egg, Ham |
002 | Cola, Diaper, Beer |
003 | Cola, Diaper, Beer, Ham |
004 | Diaper, Beer |
事务:一条数据; 项:Egg 一项; 项集 {Egg, Ham} 2-项集
关联规则(association rule): {a} -> {b}。{a}叫做前件,{b}叫做后件。
支持度计数:商品总和出现的次数。{Diaper, Beer}出现在事务 002、003和004中,所以它的支持度计数是3
支持度(support):支持度计数/总的事务数。{Diaper, Beer}的支持度计数为3,所以它的支持度是3/4=75%,说明有75%的人同时买了Diaper和Beer。主要作用是删去无意义的规则。
置信度(confidence):对于规则{Diaper}→{Beer},{Diaper, Beer}的支持度计数/{Diaper}的支持度计数,为这个规则的置信度。例如规则{Diaper}→{Beer}的置信度为3÷3=100%。说明买了Diaper的人100%也买了Beer。置信度衡量推出的规则的可靠性。
提升度:商品A的出现对商品B的出现概率提升的程度。
提升度(A->B) = 置信度(A->B)/支持度(B)
提升度(A->B) > 1:代表有提升
提升度(A->B) = 1:代表没有提升也没有下降
提升度(A->B) < 1:代表有下降
频繁项集