数据挖掘：关联分析—Apriori算法

最新推荐文章于 2024-06-28 00:19:05 发布

Thomas_CC

最新推荐文章于 2024-06-28 00:19:05 发布

阅读量4k

点赞数 4

分类专栏：数据分析文章标签：数据挖掘算法机器学习

本文链接：https://blog.csdn.net/m0_69785393/article/details/124903820

版权

本文介绍了Apriori算法在数据挖掘中的应用，包括其原理和实战案例。通过对校园Python宣传阅读统计的数据进行分析，揭示了SQL对Python、数据基础分析对数据进阶分析的促进关联，以及Python、爬虫对数据进阶分析的抑制关联。提出了加强SQL与Python、数据基础分析与进阶分析的联合推广等策略。

摘要由CSDN通过智能技术生成

@TOC
在这里插入图片描述

前言

关联分析是用于发掘数据间关联度的分析技术，即通过发掘事务数据集内每项数据组合出现的概率。
广泛应用日常各领域，例如，在生物信息学中的功能基因定位、医疗领域的病症关联分析、快消领域等多个方面。

一、Apriori算法原理

在关联分析的过程中用到的三个指标：支持度、置信度、提升度。

    每项数据组合都有自己的支持度，支持度就是数据组合项出现的次数占事务数据集总项数的比例【支持度=数据组合项出现的次数/事务数据集总项数】。支持度最高为一，最低为零。在分析过程中，根据数据的具体情况人为设置最小支持度度（0.1~0.2），遵循数据组合项的支持度 < 最小值尺度时，是非频繁项集；数据组合项的支持度 >= 最小值尺度时，是频繁项集，来筛选每项数据组合的受欢迎程度。

    关联规则是由频繁项集的前件与后件组成，而置信度是衡量关联规则的可靠程度指标， 关联规则的置信度，表示频繁项集的前件出现的情况下，频繁项集的后件同时出现 的概率【置信度=频繁项集的支持度/前件的支持度】，置信度越高，关联规则的可靠性 越强。在分析过程中，根据数据的具体情况人为设置最小置信度，来筛选每项关联规则 的可靠程度，遵循数据频繁项集的置信度 < 最小值尺度时，是弱关联规则；频繁项集 的置信度 >= 最小值尺度时，是强关联规则的原则分析关联规则。

    提升度表示频繁项集前件的出现对后件出现的影响程度，也就是频繁项集的置信度和频繁后件的支持度的比值【提升度=频繁项集的置信度/频繁项集后件的支持度】遵循数据组合项的提升度 < 1时，是抑制关联规则；数据组合项的提升度 > 1时，是促进关联规则，数据组合项的提升度 = 1时，是前后件相互独立。

二、实战案例

这是一份校园Python相关宣传的阅读统计。运用Apriori算法，挖掘分析数据

在这里插入图片描述

分析步骤

（一）关系记录的生成

1.apriori函数产生关联规则
2.遍历出规则中的关系记录
3.关系记录的提取

（二）关系记录的提取

1.提取支持度
2.提取前件和后件
3.提取置信度和提升度

（三）提取信息的加工和可视化

1.数据标准化
2.数据可视化

（四）根据促进和抑制关系，提出建议

三、代码

import pandas as pd
from apyori import apriori
import matplotlib.pyplot as plt
print('----------------------------------------------------------------------')
path1=r'F:\\数据分析\\Apriori(关联分析模型)\\UserViews.csv'
UserViews=pd.read_csv(path1)

articles=[]
for a in UserViews['文章类型']:
    article

最低0.47元/天解锁文章

Thomas_CC

关注

4
点赞
踩
24

收藏

觉得还不错? 一键收藏
打赏
1
评论
数据挖掘：关联分析—Apriori算法

@TOC前言关联分析是用于发掘数据间关联度的分析技术，即通过发掘事务数据集内每项数据组合出现的概率。广泛应用日常各领域，例如，在生物信息学中的功能基因定位、医疗领域的病症关联分析、快消领域等多个方面。一、Apriori算法原理在关联分析的过程中用到的三个指标：支持度、置信度、提升度。每项数据组合都有自己的支持度，支持度就是数据组合项出现的次数占事务数据集总项数的比例【支持度=数据组合项出现的次数/事务数据集总项数】。支持度最高为一，最低为零。在分析过程中，根据数据的具体情况人为设置
复制链接

扫一扫