关联分析基础

最新推荐文章于 2021-08-27 18:37:06 发布

TestLogger

最新推荐文章于 2021-08-27 18:37:06 发布

阅读量1.1k

点赞数

文章标签：关联分析

本文链接：https://blog.csdn.net/fktagu396430/article/details/80255595

版权

两个基本概念：

1.支持度。

一般以百分比表示；

在所有事件中同时出现A和B的概率；

支持度用于衡量关联规则在整个数据集中的统计重要性；

2.置信度。

在所有事件中，出现A的情况下出现B的概率，成为条件概率；

置信度计算公式： A和B同时出现的概率/A出现的概率；

置信度用于衡量关联规则的可信程度；

数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性，就称为关联。关联可分为简单关联、时序关联、因果关联等。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数，或者即使知道也是不确定的，因此关联分析生成的规则带有置信度。

如何设定合理的支持度和置信度？

对于某条规则：（A=a）->（B=b）（support=30%,confident=60%）；其中support=30%表示在所有的数据记录中，同时出现A=a和B=b的概率为30%；confident=60%表示在所有的数据记录中，在出现A=a的情况下出现B=b的概率为60%，也就是条件概率。支持度揭示了A=a和B=b同时出现的概率，置信度揭示了当A=a出现时，B=b是否会一定出现的概率。

（1）如果支持度和置信度闭值设置的过高，虽然可以减少挖掘时间，但是容易造成一些隐含在数据中非频繁特征项被忽略掉，难以发现足够有用的规则；

（2）如果支持度和置信度闭值设置的过低，又有可能产生过多的规则，甚至产生大量冗余和无效的规则，同时由于算法存在的固有问题，会导致高负荷的计算量，大大增加挖掘时间。

算法：构建FP树

输入：数据集、最小值尺度
输出：FP树、头指针表
1. 遍历数据集，统计各元素项出现次数，创建头指针表
2. 移除头指针表中不满足最小值尺度的元素项
3. 第二次遍历数据集，创建FP树。对每个数据集中的项集：
    3.1 初始化空FP树
    3.2 对每个项集进行过滤和重排序
    3.3 使用这个项集更新FP树，从FP树的根节点开始：
        3.3.1 如果当前项集的第一个元素项存在于FP树当前节点的子节点中，则更新这个子节点的计数值
        3.3.2 否则，创建新的子节点，更新头指针表
        3.3.3 对当前项集的其余元素项和当前元素项的对应子节点递归3.3的过程

TestLogger

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
关联分析基础

两个基本概念：1.支持度。一般以百分比表示；在所有事件中同时出现A和B的概率；支持度用于衡量关联规则在整个数据集中的统计重要性； 2.置信度。在所有事件中，出现A的情况下出现B的概率，成为条件概率；置信度计算公式： A和B同时出现的概率/A出现的概率；置信度用于衡量关联规则的可信程度；数据关联是数据库中存在的一类重要的可被发现的知识...
复制链接

扫一扫