数据关联规则分析算法

数据关联规则(Associaton Rules,AR)是数据挖掘算法的重要目的之一,用于在海量数据中挖掘出具有价值的信息,通常在商业中用于数据与数据指尖的关系来产生更大的价值,典型的例子就是“啤酒与尿不湿”。

1、基于Apriori算法的关联分析

Apriori算法是关联规则分析中较为典型的频繁项集算法。

原理步骤:

(1)对数据中每一项数据进行频率次数统计;

(2)构成候选项集C1,计算每一项的支持度(频率次数/总数);

(3)根据给定的最小支持度值,对候选集进行筛选,得到频繁项集L1。即去掉支持度小于最小支持度的候选集;

(4)对频繁项集L1进行连接生成候选集C2,重复上述步骤,最终形成频繁K项集或者最大的频繁项集。

例如如果已知步骤2中的候选项集C1:

                                                                                       C1表

候选项集支持度
牛奶0.5
饼干0.75
纸巾0.25
矿泉水0.75
口香糖0.75
假定最小支持度为0.5,排除矿泉水,对其他四项候选集进行连接,生成候选集C2,并计算其支持度。


候选项集支持度
牛奶、饼干0.25
牛奶、纸巾0.50
牛奶、口香糖0.25
饼干、纸巾0.50
饼干、口香糖0.75
纸巾、口香糖0.50
假定最小支持度为0.5,排除牛奶、饼干和牛奶、口香糖这两项,对其他四项候选集进行连接,生成候选集C3,并计算其支持度。一直重复以上步骤。得到最终的频繁项集

频繁项集 支持度
饼干、纸巾、口香糖0.5
商店根究获得的这条数据可以判断饼干、纸巾和口香糖之间的关系很大,因此可以将这三种商品放在一起出售。

以上的算法步骤很简单,但存在一定的不足:

(1)在产生候选集连接项时会有很多的组合,其中有的组合可能存在无关的数据。

(2)每次计算项集的过程都会对原始数据表进行扫描,如果数据量较大时,cpu开销较大。

因此提出了改进的Apriori算法。

(1)将数据表进行压缩。由于要进行多次扫描,压缩后可以提升性能;

(2)利用哈希表的快速查找特征性对项集进行计数统计;

(3)合理选样。当数据样本过大时,通过不同的方法进行抽取分析。例如,如果根据七天的数据进行分析,可以抽取每条的数据,进行分析。

2、TF-Growth算法

虽然Apriori算法进行了改进,但是仍然要对原始数据进行不停的扫描,这样还是会影响性能。TF-Growth算法只对原始数据进行两次扫描,通过建立FP树,对原始数据进行压缩。FP树就是频繁模式树(Frequent Pattern Tree),包含一颗前缀树和一个频繁项头表,能后有效的加快关联数据分析。

3、Eclat算法

Eclat算法利用倒排索引思想,但并不是利用倒排索引进行快速查找,而是进行数据统计。利用倒排索引快速构建频繁索引项集。








  • 1
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
MATLAB数据关联分析是一种通过统计方法来确定数据之间关系的技术。它可以帮助我们了解变量之间的相关性,并揭示隐藏在大量数据中的模式和趋势。 在MATLAB中,数据关联分析可以通过多种方法实现。其中最常用的是相关系数分析。相关系数是一种度量变量之间相关性强度的指标,它可以帮助我们判断两个变量之间是正相关、负相关还是无相关。在MATLAB中,我们可以使用corrcoef函数来计算相关系数矩阵,其中每个元素表示两个变量的相关性。 除了相关系数分析,MATLAB还提供了其他数据关联分析方法,如主成分分析(PCA)和聚类分析。主成分分析可以将原始数据转换为新的变量,这些变量是原始数据的线性组合。通过PCA,我们可以确定哪些变量对数据集的方差贡献最大,从而帮助我们降低数据维度。聚类分析可以将数据分组为具有相似特征的簇。MATLAB提供了不同的聚类算法,如K-means和层次聚类,可以根据数据的特征进行数据分组。 在MATLAB中实施数据关联分析很简单。只需导入数据集,选择适当的数据关联分析方法,并分析结果即可。MATLAB提供了丰富的文档和函数,以帮助我们进行数据关联分析,并可以使用图形化工具来可视化结果。此外,MATLAB还支持与其他数据分析工具(如Excel和SPSS)的集成,方便数据的导入和导出。 总之,MATLAB提供了强大的工具和函数用于数据关联分析,通过这些工具,我们可以深入挖掘数据之间的关联性和模式,从而帮助我们更好地理解和分析数据
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值