关联规则学习(英语:Association rule learning)是一种在大型数据库中发现变量之间的有趣性关系的方法
TID | 网球拍 | 网球 | 运动鞋 | 羽毛球 |
---|---|---|---|---|
1 | 1 | 1 | 1 | 0 |
2 | 1 | 1 | 0 | 0 |
3 | 1 | 0 | 0 | 0 |
4 | 1 | 0 | 1 | 0 |
5 | 0 | 1 | 1 | 1 |
6 | 1 | 1 | 0 | 0 |
一般我们使用三个指标来度量一个关联规则,这三个指标分别是:支持度、置信度和提升度。
Support(支持度):表示某个项集出现的频率,也就是包含该项集的交易数与总交易数的比例。例如P(A)表示项集A的比例,表示项集A和项集B同时出现的比例。
Confidence(置信度):表示当A项出现时B项同时出现的频率,记作{A→B}。换言之,置信度指同时包含A项和B项的交易数与包含A项的交易数之比。公式表达:{A→B}的置信度=。
Lift(提升度):指A项和B项一同出现的频率,但同时要考虑这两项各自出现的频率。公式表达:{A→B}的提升度={A→B}的置信度/P(B)=。
提升度反映了关联规则中的A与B的相关性,提升度>1且越高表明正相关性越高,提升度<1且越低表明负相关性越高,提升度=1表明没有相关性。负值,商品之间具有相互排斥的作用。
一个简单的实际例子分析:
表1是顾客购买记录的数据库D,包含6个交易。项集I={网球拍,网球,运动鞋,羽毛球}。考虑关联规则:网球拍与.网球,交易1,2,3,4,6包含网球拍,交易1,2,5,6包含网球,交易1,2,6同时包含网球拍和网球,那么这些指标的计算方式为:
支持度:support = , 这里的6为所有的交易的次数,(所有的细胞)
置信度:Confidence =
提升度:lift =
通过阈值说明这两者之间存在关联度。
思考:
- 若将这思想应用于基因表达数据分析, 这种关联分析和之前我们推断的基因网络分析方法之间的差距是什么?
- 这种关联就是和我们统计学习的概率公式中的贝叶斯准则的区分度?还有这个置信度,为什么不是通过统计的置换检验,通过p数值来检测?
- 这种是基于计数数据的关联度分析,lift指标和speaman 秩和相关性效果的差异?
基因网络推断的总应用的单纯性分析
几何学上,单纯形或者n-单纯形是和三角形类似的n维几何体。精确的讲,单纯形是某个n维以上的欧几里得空间中的(n+1)个仿射无关(也就是没有m-1维平面包含m+1个点;这样的点集被称为处于一般位置)的点的集合的凸包。 3单纯形,也叫四面体。
例如,0-单纯形就是点,1-单纯形就是线段,2-单纯形就是三角形,3-单纯形就是四面体,而4-单纯形是一个五胞体(每种情况都包含内部)。