（三）特征挖掘

最新推荐文章于 2022-11-03 14:06:30 发布

weixin_30906701

最新推荐文章于 2022-11-03 14:06:30 发布

阅读量573

点赞数

原文链接：http://www.cnblogs.com/bytedance/p/9166597.html

版权

（三）特征挖掘

特征挖掘的框架

频繁特征挖掘基本概念

1.频繁项集、频繁子序列、频繁子结构

2.关联规则：

购物篮问题：电脑-->反病毒软件[支持度support=2%, 置信读confidence=60%]，表示所有交易数据中有2%的记录在购买了电脑与反病毒软件被同时购买，而所有购买了电脑的用户中，有60%的用户也购买了软件。
计算：

关联规则的挖掘本质上是频繁项集的挖掘：两步

a)找到所有的频繁项集;

b)基于频繁项集生成强关联规则;　　

难点及解决方案：

当min_sup设置的很小时，会存在大量的项集满足约束条件，开销大==>闭合频繁项集 + 最大频繁项集

a)闭合频繁项集：数据集D中不存在项集Y使得X是其子集且二者支持度数目(support count)相等

b)最大频繁项集：X是频繁项集，且不存在频繁项集使得Y包含项集X

频繁项集挖掘

先验(Apriori)算法：发现频繁项集

1.思想：利用频繁项集的先验知识，使用分层搜索的技术，即k项集被用于生成k+1项集

2.先验性质：

目的，提升分层搜索的效率。定义，所有非空频繁项集的子集也应该是频繁项集。

3.L_k-1项集生成L_k项集的过程：两步，join + prune

4.算法：

5.从频繁项集到关联规则：强关联规则是那些即满足min_sup又满足min_conf的频繁项集

6.提升先验算法的效率： a)利用哈希表；b)减少数据量；分割数据；采样；动态项集计数；

FP-growth算法：解决先验算法开销大的不足

1.算法

垂直数据格式(vertical data format)：

1. 定义：传统的{TID:itemset}形式的的数据称为水平数据格式，而垂直数据格式形如{item: TID_set}

2.挖掘方法：每次迭代中将两组频繁TID_set联结在一起

频繁项集的评估

1.原有的support-confidence框架下的关联关系挖掘规则并不完备，有时具有欺骗性；

2.关联规则中的相关性分析：

lift

其中，lift=1时二者不相关，lift>1正相关，lfft<1负相关

chi-square
cosine-similarity

多层、多维空间中的特征挖掘

多层关联关系挖掘：

1.定义：从多个抽象层实现关联规则的挖掘

2.方法：　　在支持度-置信度框架下使用概念分层的策略

多维关联关系的挖掘：

1.定义：

2.方法

量化的关联规则的挖掘：

1.方法：解决离散化过程中的问题，a.利用数据块b.聚类c.统计分析移除异常数据

受限的频繁特征挖掘

1.约束类型：数据类型、维度、规则等

高纬度与海量特征的挖掘：

1. 目的：弥补频繁模式挖掘中仅仅适用于低维度数据的局限性

2.方法一：利用垂直数据格式来解决数据量小但是高维度的挖掘问题

2.方法二：模式融合　　

应用场景
方法：将一部分较短的频繁模式作为海量模式候选项，以在模式搜索的过程中绕开纯BDF与DFS挖掘策略的一些陷阱，进而对海量的频繁模式进行很好的逼近

引用：

[1] Han J, Pei J, Kamber M. Data mining: concepts and techniques[M]. Elsevier, 2011.

posted on 2018-06-11 13:22 bytedance 阅读( ...) 评论( ...) 编辑收藏

转载于:https://www.cnblogs.com/bytedance/p/9166597.html

weixin_30906701

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
（三）特征挖掘

（三）特征挖掘特征挖掘的框架频繁特征挖掘基本概念1.频繁项集、频繁子序列、频繁子结构2.关联规则：购物篮问题：电脑-->反病毒软件[支持度support=2%, 置信读confidence=60%]，表示所有交易数据中有2%的记录在购买了电脑与反病毒软件被同时购买，而所有购买了电脑的用户中，有60%的用户...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。