物联网信息处理技术IPT（数据挖掘）第二章2.1-2.2

bunny playing games

已于 2023-09-11 12:37:01 修改

阅读量1.1k

点赞数

分类专栏：大三下文章标签：数据挖掘

于 2023-06-10 19:30:03 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_53631388/article/details/131145406

版权

大三下专栏收录该内容

12 篇文章 1 订阅

订阅专栏

本文介绍了频繁模式挖掘的概念，包括频繁模式、关联规则、封闭模式和最大模式，详细讲解了Apriori、FP-Growth和ECLAT等挖掘算法。同时，概述了分类的基本概念，如监督学习和无监督学习，讨论了决策树、贝叶斯分类以及基于规则的分类方法，并涉及模型评价与选择的指标。

摘要由CSDN通过智能技术生成

目录

2.1 Frequent Pattern Mining频繁模式挖掘

What Is Frequent Pattern Analysis?什么是频繁模式分析?

Basic Concepts: Frequent Patterns基本概念:频繁模式

Basic Concepts: Association Rules基本概念:关联规则

Closed Patterns and Max-Patterns封闭模式和最大模式

Scalable Frequent Itemset Mining Methods可扩展的频繁项集挖掘方法

记录点：Apriori算法

记录点：FP-Growth算法

记录点：ECLAT算法

Which Patterns Are Interesting?-pattern Evaluation Methods哪些模式有趣?-模式评价方法

记录点：Lift相关计算

2.2 Classification分类

Basic Concepts基本概念

记录点：监督/无监督学习

Classinication—A Two-Step Process分类-两步过程

Decision tree induction决策树归纳

记录点：基本算法：贪心算法

记录点：选决策树的根节点

Bayes Classification Methods贝叶斯分类方法

记录点：对朴素贝叶斯的零概率事件的拉普拉斯修正法

Rule-Based Classification基于规则的分类

记录点：“规则”的使用简述

记录点：规则剪枝公式

Model Evaluation and Selection模型评价与选择

记录点：利用T/F、P/N计算准确度、错误率、精度、召回的4个公式

记录点：数据集拆成训练集和测试集的方法

2.1 Frequent Pattern Mining频繁模式挖掘

数据挖掘-频繁模式

What Is Frequent Pattern Analysis?什么是频繁模式分析?

频繁模式的挖掘

Basic Concepts: Frequent Patterns基本概念:频繁模式

K项集，当k=1的时候为一项集

X集合里面某个x出现的频率

(relative) support指的是x出现的比例

Basic Concepts: Association Rules基本概念:关联规则

简写为s，支持度，X和Y同时出现

，置信度，X出现的情况下XY同时出现，是条件概率

频繁的一项集

看草稿3来理解这俩的区别，跳转草稿

Closed Patterns and Max-Patterns封闭模式和最大模式

小卖铺说这里是重点

closed itemset第一个条件是frequent，第二个条件是不存在更大集合，和它有相同支持度（如果该集合包含所有元素，那么肯定不存在“更大”，所以就算支持度是1它也是closed itemset）

max-pattern尽可能包含最多的集合

由这张图看出，closed itemset可能不止一个，closed itemset包含了max-pattern，我猜的

closed itemset set是all patterns简洁的表现形式

Scalable Frequent Itemset Mining Methods可扩展的频繁项集挖掘方法

理解红字很简单，想想就知道了，ABC三个东西出现都算频繁了，单个东西出现肯定更频繁

Apriori主打的就是一个反证法，降低没必要的生成成本

记住自连接的符号

为了保证不漏掉，abcde要按顺序列出来

最后是abcd，因为从中任取三个都有

看懂左图很简单，C1到L1、C2到L2都是选出大于2的，C1是1项集，C2是2项集

和上一张图对比就是要多理解一个C3，也不难理解，C3中每一个集合里任意两个元素的搭配在L2中都有出现就行

记录点：Apriori算法

最后得到数据库频繁三角集（？可能听错了

上图就是规范答题

接下来的伪代码需要记住，考试可能会考

详见草稿4，跳转草稿

这个算法的计算开销比较大

Candidates是候选集

虽然有剪枝，但是生成的大量数据候选集要测试

不是apriori的改进，单纯只是另外一种办法

有点像深度搜索过程

Abc取出来单独成库，在这个库里d是频繁的，那abcd就是频繁的，就像这样不断地迭代增长

记录点：FP-Growth算法

有点抽象，往下看

自己理解比看PPT好，详见草稿5，跳转草稿，伪代码也放草稿里了

这两张不用管，就是讲解过程而已

看不懂直接看下面的例子，非常好懂

记录点：ECLAT算法

Which Patterns Are Interesting?-pattern Evaluation Methods哪些模式有趣?-模式评价方法

新公式，提升度，这个看文字描述、不用看上面的打篮球例子

记录点：Lift相关计算

用来描述上面这张图，可以把表示成分子1/9，分母(7/9)*(3/9)

2.2 Classification分类

Basic Concepts基本概念

无监督到2.3 2.4再细讲

记录点：监督/无监督学习

Classinication—A Two-Step Process分类-两步过程

小卖铺说这是重点

Decision tree induction决策树归纳

所以不是所有属性都需要拿来作为判定条件的（用够了就可以停止分区），重点关注与最后想要的yes no答案关联更大的

这是构造的原理，构造的流程

记录点：基本算法：贪心算法

“信息增益”法来找根节点

红字的意思就是上面那个决策树中第一个分水岭——年龄范围，的意思

D表示某个data set，不同的类别用Ci来表示，在一个D中某个object属于C的概率就是p

看不懂公式，还是直接看下面的例子吧

选Gain更大的为根节点，有点东西写在草稿6，跳转草稿

记录点：选决策树的根节点

I(9,5)统计的是14个中yes有9个

用“信息增益”法来找根节点有一个致命问题，那就是会有不确定性，举个例子，如果每个人都有一个属于自己的id号，那么用id号划分“信息增益”相关度肯定很大，但是想想肯定不可以拿id号的不同直接划分，会把集合划分得非常散

这个时候就要用到“增益比”

Bayes Classification Methods贝叶斯分类方法

贝叶斯公式解决的问题和全概率是相反的，解决的是当X出现的时候，造成X出现的原因是什么

条件概率就是后验概率

贝叶斯原理：计算所有的后验概率，选最大的后验概率，作出X属于哪个类别的判断

其实我没搞懂它和找根节点有什么关系

只找分子

还是之前的数据

认真看，字多但是不难懂

X=（A条件，B条件……|大条件）就是分别的条件占大条件的数的相乘

得到这个结果再乘以大条件的概率

连乘有0结果就0了，所以只能说是朴素贝叶斯

拉普拉斯修正法：每个类别的案例+1，总数也加对应数量的1（总数不止加一个1）

记录点：对朴素贝叶斯的零概率事件的拉普拉斯修正法

Rule-Based Classification基于规则的分类

感觉不是什么新知识，就是把决策树换成上面那个example的样式，方便计算机理解

这里的终止条件和前面的停止分区的条件差不多，还多了一个，如果剩下的规则质量低也可以停

我看老师讲的大概意思是，不停地找规则，每个新规则就能覆盖一部分例子，直到找的规则加起来能覆盖所有的例子

记录点：“规则”的使用简述

同时，这些规则也不能包括不符合的数字

此gain不是之前的gain, pos’是指增加一个属性之后pos的个数

high accuracy体现在用了前后对数相减

生成出来的规则还要进行剪枝，原因是生成的规则对目前的数据表现良好，但对没有使用到的数据就不一定好了（不懂在说什么，背公式就对了），评判哪条规则需要出去就是剪枝

判断是否要剪掉，如果去掉某条规则之后，更高了，就要去掉这条规则

记录点：规则剪枝公式

Model Evaluation and Selection模型评价与选择

第一个表格的意思是，（竖排）真实的情况是/否为C1，（横排）预测的情况是/否为C1，统计每条结果，总数写在表格里

这里的是/否看成阳性/阴性，会更好理解，举例举核酸

这四个公式对应左上图就好理解了

记录点：利用T/F、P/N计算准确度、错误率、精度、召回的4个公式

记录点：数据集拆成训练集和测试集的方法

Holdout method就是把数据拆成一部分作为训练集，另一部分作为测试集，random sampling指的是这个拆数据的比例根据要求每次都调整变化

Cross validation就是假如k是10，从就把数据均分为10份，从第一份开始，训练其它9个，用该第1个作测试，以此类推，每份数据都能又作为训练又作为测试

这个方法针对数据比较少的数据集

有回放的随机均匀采样

（看这个课件感觉0.368是固定数）公式直接套

bunny playing games

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。