微服务全生命周期云资源智能管控技术研究
研究基于关联规则与业务链路跟踪的共性服务资源挖掘技术
关联规则的背景
关联规则是一项在数据挖掘中使用的技术,我们使用这项技术,来尽可能描述事物之间存在的相互依存性与关联性。
- 比如通过联系
尿布与啤酒
,来提高沃尔玛商店的营销量。
总而言之,我们可以说:由于某些事件的发生而引起另外一些事件的发生
。
现给出交易数据库D,其中每个事务T是项集的非空子集,每个交易都与一个唯一的标识符TID(事务ID)对应。
支持度
支持度是指:在这个交易数据库D中的事务中,同时包含X与Y的百分比。
- 也就是说,交易集中同时出现X与Y的数目与D的长度之比。
可信度
可信度是指包含X和Y的交易数与包含X的交易数之比。
- 也就是说,可信度反映了:如果交易包含X,则包含Y的概率,
某超市的交易数据库
-
设I={i1,i2,…,im},是m个不同的项目的集合,每个ik称为一个项目。项目的集合I称为项集。其元素的个数称为项集的长度,长度为k的项集称为k-项集。引例中每个商品就是一个项目,项集为I={bread, beer, cake,cream, milk, tea},I的长度为6。
-
每笔交易T是项集I的一个子集。对应每一个交易有一个唯一标识交易号,记作TID。交易全体构成了交易数据库D,|D|等于D中交易的个数。引例中包含10笔交易,因此|D|=10。
-
在例子中,根据之前的定义,比如项集
X={bread, milk}
,它出现在T1,T2,T5,T9和T10中,所以支持度为0.5。 -
最小支持度是项集的最小支持阀值,记为SUPmin,代表了用户关心的关联规则的最低重要性。支持度不小于SUPmin 的项集称为频繁集,长度为k的频繁集称为k-频繁集。
- 注意,阈值是人为设定的。 如果设定SUPmin为0.3,引例中{bread, milk}的支持度是0.5,所以是2-频繁集。