【转】支持度

   支持度,简单的字面理解就是支持的程度,一般以百分比表示。生活中常见的使用场合有投票、竞选、民意调查等,比如某校高一三班进行班委竞选,该班级共有学生50名,在班长一职的竞选中,张三得到40票。那么就可以说在该班班长竞选中,张三的支持度是:40/50*100%=80%。
  该名词还常出现在数据挖掘的关联分析中,常跟 置信度(或可信性)一起出现。
  如:某超市中有1000个顾客购物,其中200个顾客购买了面包(物品集A),那么面包(物品集A)的支持度为:
  P(A)=20%(200/1000)。
  关联规则从一个侧面揭示了事务之间的某种联系。
  支持度和置信度总是伴随着关联规则存在的,它们是对关联规则的必要的补充。
  对某条关联规则而言,如 A -> B (support=30%, confidence= 60%)
  其中的support=30%是说,在所有的事务中同时出现A和B的概率。
  而,confidence=60%是说,所有事务中,在出现A的情况下出现B的概率,即条件概率。
  那么我们要怎样设置支持度和置信度呢?
  支持度揭示了A和B同时出现的频率,如果A和B一起出现的频率非常小,那么就说明了A和B之间的联系
  并不大;但若一起出现的频率非常频繁,那么A和B总是相关联的知识也许已经成为常识而存在了。这就
  涉及到如何正确设置支持度的问题。
  当然,对数据库中的隐藏的关联规则的挖掘有一个重要的性质就是知识总是出现在不同的层面上,
  因此这也是一个需要着重考虑的问题。
  置信度揭示了A出现时,B是否一定会出现,如果出现则其大概有多大的可能出现。如果置信度为100%,
  则说明了A出现时,B一定出现。那么,对这种情况而言,假设A和B是市场上的两种商品,就没有理由不进行捆绑销售了。
  如果置信度太低,那么就会产生这样的疑问,A和B关系并不大,也许与A关联的并不是B.
  当然了,就做题而言,往往给出支持度和置信度的要求。在一个具体的数据挖掘任务中,也是用户自行设置这两个值。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
数据挖掘和机器学习中,支持是指某个项集出现的频率,通常以百分比的形式表示。在 Python 中,可以使用 Pandas 库和 Numpy 库来计算支持。 首先,使用 Pandas 读取数据集,并使用 groupby() 和 size() 函数计算每个项集的频数,然后除以总的观测次数。这可以通过以下代码实现: ```python import pandas as pd # 读取数据集 data = pd.read_csv('data.csv', header=None) # 计算每个项集的频数 freq = data.groupby([0, 1, 2])[3].size().reset_index(name='freq') # 计算总的观测次数 total = len(data) # 计算支持 freq['support'] = freq['freq'] / total ``` 其中,data.csv 是包含观测数据的 CSV 文件,[0, 1, 2] 是项集的列索引,3 是观测次数的列索引。 另外,也可以使用 Apriori 算法来计算频繁项集和支持。Apriori 算法是一种常用的挖掘频繁项集的算法,可以使用 mlxtend 库来实现。以下是一个使用 mlxtend 库计算频繁项集和支持的例子: ```python from mlxtend.preprocessing import TransactionEncoder from mlxtend.frequent_patterns import apriori # 读取数据集 data = pd.read_csv('data.csv', header=None) # 将数据集换为事务列表 transactions = data.groupby([0, 1, 2])[3].apply(list).tolist() # 使用 TransactionEncoder 将事务列表换为布尔矩阵 te = TransactionEncoder() te_ary = te.fit(transactions).transform(transactions) # 将布尔矩阵换为 DataFrame df = pd.DataFrame(te_ary, columns=te.columns_) # 使用 Apriori 算法计算频繁项集和支持 freq = apriori(df, min_support=0.1, use_colnames=True) ``` 其中,min_support 参数指定了最小支持阈值,use_colnames 参数指定是否使用项集名称而不是索引。输出的 freq DataFrame 包含频繁项集和对应的支持
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值