(三)特征挖掘

 特征挖掘的框架

 

频繁特征挖掘基本概念

1.频繁项集、频繁子序列、频繁子结构

2.关联规则:

  • 购物篮问题:电脑-->反病毒软件[支持度support=2%, 置信读confidence=60%],表示所有交易数据中有2%的记录在购买了电脑与反病毒软件被同时购买,而所有购买了电脑的用户中,有60%的用户也购买了软件。
  • 计算:

  • 关联规则的挖掘本质上是频繁项集的挖掘:两步

a)找到所有的频繁项集;

b)基于频繁项集生成强关联规则;  

  • 难点及解决方案:

当min_sup设置的很小时,会存在大量的项集满足约束条件,开销大==>闭合频繁项集 + 最大频繁项集

a)闭合频繁项集:数据集D中不存在项集Y使得X是其子集且二者支持度数目(support count)相等

b)最大频繁项集:X是频繁项集,且不存在频繁项集使得Y包含项集X

频繁项集挖掘

  • 先验(Apriori)算法:发现频繁项集

1.思想:利用频繁项集的先验知识,使用分层搜索的技术,即k项集被用于生成k+1项集

2.先验性质:

目的,提升分层搜索的效率。定义,所有非空频繁项集的子集也应该是频繁项集。

3.L_k-1项集生成L_k项集的过程:两步,join + prune

4.算法:

 

 5.从频繁项集到关联规则:强关联规则是那些即满足min_sup又满足min_conf的频繁项集

 6.提升先验算法的效率: a)利用哈希表;b)减少数据量;分割数据;采样;动态项集计数;

  • FP-growth算法:解决先验算法开销大的不足

1.算法

  • 垂直数据格式(vertical data format):

1. 定义:传统的{TID:itemset}形式的的数据称为水平数据格式,而垂直数据格式形如{item: TID_set}

2.挖掘方法:每次迭代中将两组频繁TID_set联结在一起

 

频繁项集的评估

1.原有的support-confidence框架下的关联关系挖掘规则并不完备,有时具有欺骗性;

2.关联规则中的相关性分析:

  • lift

其中,lift=1时二者不相关,lift>1正相关,lfft<1负相关

  • chi-square
  • cosine-similarity

多层、多维空间中的特征挖掘

  • 多层关联关系挖掘:

1.定义:从多个抽象层实现关联规则的挖掘

2.方法:  在支持度-置信度框架下使用概念分层的策略

  • 多维关联关系的挖掘:

1.定义:

2.方法

  • 量化的关联规则的挖掘:

1.方法:解决离散化过程中的问题,a.利用数据块b.聚类c.统计分析移除异常数据

  • 受限的频繁特征挖掘

1.约束类型:数据类型、维度、规则等

  • 高纬度与海量特征的挖掘:

 1. 目的:弥补频繁模式挖掘中仅仅适用于低维度数据的局限性

 2.方法一:利用垂直数据格式来解决数据量小但是高维度的挖掘问题

2.方法二:模式融合  

  • 应用场景
  • 方法:将一部分较短的频繁模式作为海量模式候选项,以在模式搜索的过程中绕开纯BDF与DFS挖掘策略的一些陷阱,进而对海量的频繁模式进行很好的逼近

 

 引用:

[1] Han J, Pei J, Kamber M. Data mining: concepts and techniques[M]. Elsevier, 2011.

posted on 2018-06-11 13:22 bytedance 阅读( ...) 评论( ...) 编辑 收藏

转载于:https://www.cnblogs.com/bytedance/p/9166597.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值