数据挖掘:关联分析—Apriori算法

@TOC
在这里插入图片描述


前言

关联分析是用于发掘数据间关联度的分析技术,即通过发掘事务数据集内每项数据组合出现的概率。
广泛应用日常各领域,例如,在生物信息学中的功能基因定位、医疗领域的病症关联分析、快消领域等多个方面。


一、Apriori算法原理

在关联分析的过程中用到的三个指标:支持度、置信度、提升度。

    每项数据组合都有自己的支持度,支持度就是数据组合项出现的次数占事务数据集总项数的比例【支持度=数据组合项出现的次数/事务数据集总项数】。支持度最高为一,最低为零。在分析过程中,根据数据的具体情况人为设置最小支持度度(0.1~0.2),遵循数据组合项的支持度 < 最小值尺度时,是非频繁项集;数据组合项的支持度 >= 最小值尺度时,是频繁项集,来筛选每项数据组合的受欢迎程度。

    关联规则是由频繁项集的前件与后件组成,而置信度是衡量关联规则的可靠程度指标, 关联规则的置信度,表示频繁项集的前件出现的情况下,频繁项集的后件同时出现 的概率【置信度=频繁项集的支持度/前件的支持度】,置信度越高,关联规则的可靠性 越强。在分析过程中,根据数据的具体情况人为设置最小置信度,来筛选每项关联规则 的可靠程度,遵循数据频繁项集的置信度 < 最小值尺度时,是弱关联规则;频繁项集 的置信度 >= 最小值尺度时,是强关联规则的原则分析关联规则。

    提升度表示频繁项集前件的出现对后件出现的影响程度,也就是频繁项集的置信度和频繁后件的支持度的比值【提升度=频繁项集的置信度/频繁项集后件的支持度】遵循数据组合项的提升度 < 1时,是抑制关联规则;数据组合项的提升度 > 1时,是促进关联规则,数据组合项的提升度 = 1时,是前后件相互独立。

二、实战案例

这是一份校园Python相关宣传的阅读统计。运用Apriori算法,挖掘分析数据

​​在这里插入图片描述

分析步骤

(一)关系记录的生成

1.apriori函数产生关联规则
2.遍历出规则中的关系记录
3.关系记录的提取

(二)关系记录的提取

1.提取支持度
2.提取前件和后件
3.提取置信度和提升度

(三)提取信息的加工和可视化

1.数据标准化
2.数据可视化

(四)根据促进和抑制关系,提出建议

三、代码

import pandas as pd
from apyori import apriori
import matplotlib.pyplot as plt
print('----------------------------------------------------------------------')
path1=r'F:\\数据分析\\Apriori(关联分析模型)\\UserViews.csv'
UserViews=pd.read_csv(path1)

articles=[]
for a in UserViews['文章类型']:
    article
  • 4
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Thomas_CC

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值