数据挖掘支持度、错误率、置信度解析

最新推荐文章于 2024-07-27 13:56:45 发布

Black_lafier

最新推荐文章于 2024-07-27 13:56:45 发布

阅读量8.7k

点赞数 3

分类专栏：数据挖掘文章标签：支持度置信度数据挖掘错误率

本文链接：https://blog.csdn.net/XinAn_ZXY/article/details/78994611

版权

本文介绍了数据挖掘中用于评估规则重要性的三个关键指标：支持度、错误率和置信度。支持度表示规则在数据集中出现的频率，错误率则反映了规则不成立的情况，而置信度衡量了前提条件下规则结论的准确性。以购买苹果与香蕉为例，详细解释了这三个概念的计算方法。

摘要由CSDN通过智能技术生成

对于数据挖掘中的规则，规则的优劣有多种衡量方法，常用的是支持度（support）、错误率（error）和置信度（confidence）

下面将介绍一下支持度、错误率和置信度。

举个例子，商店里面有四种商品：苹果、香蕉、奶油、菠萝。假定有以下几条数据（1代表购买、0代表不购买）

苹果	香蕉	奶油	菠萝
1	0	1	0
1	1	0	0
1	0	0	0
1	1	0	1
0	0	0	1
1	1	1	0

现在我们假设一条规则：买了苹果的人，很大程度上会购买香蕉！
买了苹果是前提，购买香蕉是预测

1.支持度的计算方法

一般来说是指在数据集中符合规则的数据的数量，不过，也有一些场景要求把支持度进行规范化，例如：将符合规则的数据数量除以数据集的可用数据总量等

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Black_lafier

关注关注

3
点赞
踩
12

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

支持度和置信度

chenglinhust的专栏

03-10

7935

支持度和置信度 支持度(Support)的公式是：Support(A->B)=P(A U B)。支持度揭示了A与B同时出现的概率。如果A与B同时出现的概率小，说明A与B的关系不大；如果A与B同时出现的非常频繁，则说明A与B总是相关的。 置信度(Confidence)的公式式：Confidence(A->B)=P(A | B)。置信度揭示了A出现时，B是否也会出现或有

mysql置信度支持度_支持度、置信度和提升度

weixin_39860583的博客

02-03

401

购物篮分析购物篮数据的二元0/1表示利用关联分析的方法可以发现二元表示每一行对应一个事务，每列对应一个项，项用二元变量表示项在事务中出现比不出现更重要，因此项是非对称的的二元变量。项集(Itemset)：包含0个或多个项的集合，如果包含k个项，则称为k-项集。事务的宽度：事务中出现的项的个数一般我们使用三个指标来度量一个关联规则，这三个指标分别是：支持度、置信度和提升度。Support(支持度)：...

1 条评论您还未登录，请先登录后发表或查看评论

概率论--置信区间和置信度

最新发布

Ctrl+CV九段手

07-27

2926

例如，如果一个研究者计算出某城市居民平均收入的95%置信区间为[5000元, 7000元]，这意味着在多次重复抽样并计算置信区间的情况下，有95%的置信区间会包含真实的平均收入值。较高的置信度意味着更宽的置信区间，而较窄的置信区间则意味着较低的置信度。例如，如果置信水平为95%，则表示在多次重复抽样并计算置信区间的情况下，有95%的置信区间会包含真实的总体参数值。其中，点估计值是基于样本数据得出的总体参数的最佳估计，可靠性系数（也称为置信系数）反映了置信区间的可靠程度，标准误差则是衡量估计精度的一个指标。

数据挖掘关联分析中的支持度、置信度和提升度

丙吉

06-06

6013

购物篮分析购物篮数据的二元0/1表示利用关联分析的方法可以发现联系如关联规则或频繁项集。二元表示每一行对应一个事务，每列对应一个项，项用二元变量表示项在事务中出现比不出现更重要，因此项是非对称的的二元变量。项集（Itemset）：包含0个或多个项的集合，如果包含k个项，则称为k-项集。事务的宽度：事务中出现的项的个数一般我们使用三个指标来度量一个关联规则

数据挖掘导论第二版答案，Pang-Ning Tan.pdf

12-16

进一步的概念包括提升度、支持度和置信度的调整，以及处理大规模数据集的优化策略。 6. 聚类分析：基础概念和算法聚类分析是无监督学习的一部分，目的是找到数据自然形成的群体或簇。K-means、层次聚类和DBSCAN...

数据挖掘期末考试复习.doc

11-25

4. 置信度：置信度是包含 I1 和 I2 的事务数与包含 I1 的事务数之比。 5. 聚类：聚类是通过最大化类内相似性，最小化类间相似性的方法将数据分为簇和组来分析数据对象。 6. KNN：KNN 是一种分类算法，计算每个训练...

数据挖掘：理论与算法学习笔记

m0_52899614的博客

12-28

1956

后剪枝则是先从训练集中生成一棵完整的决策树，然后自底向上的考察每一个非叶结点，和预剪枝相反，如果将该结点对应的子树替换为叶结点能给决策树带来性能上的提升，则将该子树替换为叶结点。原理：根据特征的先验概率（训练样本分析得到的概率），利用贝叶斯公式计算出其后验概率（要分类对象特征的条件概率），选择概率值最大的类作为该特征所属的类。信息增益越大越好，即该属性的效能越高，越有区分度。Elman Network：此算法有一定的记忆性，通过之前的输入推出答案，输出不仅仅取决于当前的输入，还取决于之前的输入。

支持度与置信度

洛豳枭薰

09-13

637

支持度： P (A并B)：A、B同时出现在D（事务集）中的概率，表示AB的关联是否密切。 置信度： P(B|A):在已经发生A的事务集D中，出现B的概率，表示AB是否能够捆绑销售。

关联分析中的支持度、置信度和提升度计算

热门推荐

我是泛滥

04-26

1万+

目录项集（Itemset）事务的宽度支持度、置信度和提升度定义例一例二项集（Itemset）包含0个或多个项的集合，如果包含k个项，则称为k-项集。事务的宽度事务中出现的项的个数支持度、置信度和提升度定义一般我们使用三个指标来度量一个关联规则，这三个指标分别是：支持度、置信度和提升度。 Support（支持度） Support（支持度）：表示同时包含A和B的事务占所有事务的比...

支持度、置信度学习笔记

m0_72410588的博客

05-10

3514

支持度（Support）是指数据集DDD中包含某个项集XXX的记录所占的比例。SuppXfreqX∣D∣SuppX∣D∣freqX其中freqXfreq(X)freqX表示包含XXX的记录数，∣D∣|D|∣D∣表示数据集DDD中记录的总数。置信度（Confidence）是指数据集DDD中包含项集XXX的记录中同时包含另一个项集YYY的比例。

支持度，置信度，提升度的区别和计算

zz2230633069的博客

09-27

1万+

支持度定义（多个的时候是联合概率）：support(A，B)同时购买了商品A和商品B的交易次数/总的交易次数。support(A): 即为购买A在所有事务性变量（购物篮）中出现的比例。因此上面的题目：s(e)=8/10=0.8，s(b,d)=2/10=0.2， s(b,d,e)=2/10=0.2；结果选A。 置信度定义（就是条件概率）：confidence（A-->B）=P(B|A...

支持度 置信度

mlzhu007的专栏

03-30

5689

支持度(support)和置信度(confidence)是关联规则中的两个指标，代表规则的有用性和确定性。对于啤酒-尿布这个经典的关联规则： beers=>diapers[support=10%,confidence=60%] support=10%表示beers和diapers同时出现的概率是10% confidence=60%表示已知购买beers的条件下，购买diapers的概率是60

数据挖掘计算题-1

lym66666的博客

12-21

3508

一、设某事务项集构成如下表，填空完成表1中支持度和置信度的计算（1--12）（15分）。表1支持度与置信度 事务ID 项集 L2 支持度% 规则 置信度% T1 A,D A,B （1） A→B （7） T2 D,E.

数据关联规则：概述【频繁项集评估标准：支持度(support)、置信度(confidence)、提升度(lift)】【算法：Aprior、FP-Tree、GSP、CBA】

u013250861的博客

01-18

1万+

关联规则中的数据集结构一般如下所示：{ 牛奶 } 是 1-项集{ 牛奶，果冻 } 是 2-项集；{ 啤酒，面包，牛奶 } 是 3-项集X和Y是项集X称为规则前项Y称为规则后项事务：即样本，一个样本称为一个事务。事务仅包含其涉及到的项目，而不包含项目的具体信息在超级市场的关联规则挖掘问题中事务是顾客一次购物所购买的商品，但事务中并不包括这些商品的具体信息，如商品的数量、价格等。

数据挖掘：关联分析与Apriori算法解析

"关联分析基础概念-人脸识别图像预处理技术" 关联分析是数据挖掘中的一个重要方法，主要用于发现数据集中项集之间的有趣关系。...例如，它可能揭示某些特定的光照条件、角度变化或面部遮挡与识别错误率的关联性。