对于数据挖掘中的规则,规则的优劣有多种衡量方法,常用的是支持度(support)、错误率(error)和置信度(confidence)
下面将介绍一下支持度、错误率和置信度。
举个例子,商店里面有四种商品:苹果、香蕉、奶油、菠萝。假定有以下几条数据(1代表购买、0代表不购买)
苹果 | 香蕉 | 奶油 | 菠萝 |
---|---|---|---|
1 | 0 | 1 | 0 |
1 | 1 | 0 | 0 |
1 | 0 | 0 | 0 |
1 | 1 | 0 | 1 |
0 | 0 | 0 | 1 |
1 | 1 | 1 | 0 |
现在我们假设一条规则:买了苹果的人,很大程度上会购买香蕉!
买了苹果是前提,购买香蕉是预测
1.支持度的计算方法
一般来说是指在数据集中符合规则的数据的数量,不过,也有一些场景要求把支持度进行规范化,例如:将符合规则的数据数量除以数据集的可用数据总量等