关联分析

最新推荐文章于 2023-06-04 10:06:53 发布

你看起来很好吃

最新推荐文章于 2023-06-04 10:06:53 发布

阅读量1.2k

点赞数

分类专栏：数据挖掘

数据挖掘专栏收录该内容

21 篇文章 1 订阅

订阅专栏

无监督学习，即不存在目标变量，基于数据本身，去识别变量之间内在的模式和特征。例如关联分析，通过数据发现项目A和项目B之间的关联性。例如聚类分析，通过距离，将所有样本划分为几个稳定可区分的群体。这些都是在没有目标变量监督下的模式识别和分析。

关联分析的目的在于，找出项目（item）之间内在的联系。常常是指购物篮分析，即消费者常常会同时购买哪些产品（例如游泳裤、防晒霜），从而有助于商家的捆绑销售。

基本概念：

1）关联规则的形式化定义：

computer⟹antivirus_software[support= 2%;confidence = 60%] （购买计算机也趋向于同时购买杀毒软件）

规则的支持度（support）和置信度（confidence ）是规则兴趣度的两种度量。它们分别反映所发现规则的有用性和确定性。

关联规则的支持度为2%，意味所分析的所有事务的2%显示计算机和杀毒软件被同时购买。 support(A⟹B) = P(A∪B)

置信度60%意味购买计算机的顾客60%也购买了杀毒软件。 confidence(A⟹B)= P(B|A)

在典型情况下，同时满足最小支持度阈值和最小置信度阈值（可由专家设定）的强关联规则，被认为是有趣的。

2）关联规则挖掘两步走：

a、找出所有的频繁项集（项集频度满足最小支持度计数阈值）。

b、由频繁项集产生强关联规则。

3）大型数据集中的主要挑战：大量满足最小支持度阈值的项集。例如，一个长度为100的频繁项集，总个数为。个数太大，无法计算和存储。引入了闭频繁项集和极大频繁项集的概念。

适用情景：

1、购物篮分析。捆绑销售。

2、优质或劣质用户（门店）的特征频繁模式发现。

主要算法：Apriori算法、Eclat算法、频繁树（FP-Tree）算法

模型评估：提升度、卡方分析、全置信度、最大置信度、Kulczynski、余弦、不平衡比（IR）。

其中，只有提升度和卡方分析不是零不变度量（不受零事务（不包含任何考察项集的事务）的影响）。

建议，结合IR和Kulc一起使用。

你看起来很好吃

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
关联分析

基本概念：适用情景：主要算法：模型评估：
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。