物联网信息处理技术IPT(数据挖掘)第二章2.1-2.2

本文介绍了频繁模式挖掘的概念,包括频繁模式、关联规则、封闭模式和最大模式,详细讲解了Apriori、FP-Growth和ECLAT等挖掘算法。同时,概述了分类的基本概念,如监督学习和无监督学习,讨论了决策树、贝叶斯分类以及基于规则的分类方法,并涉及模型评价与选择的指标。
摘要由CSDN通过智能技术生成

目录

2.1 Frequent Pattern Mining频繁模式挖掘

What Is Frequent Pattern Analysis?什么是频繁模式分析?

Basic Concepts: Frequent Patterns基本概念:频繁模式

Basic Concepts: Association Rules基本概念:关联规则

Closed Patterns and Max-Patterns封闭模式和最大模式

Scalable Frequent Itemset Mining Methods可扩展的频繁项集挖掘方法

记录点:Apriori算法

记录点:FP-Growth算法

记录点:ECLAT算法

Which Patterns Are Interesting?-pattern Evaluation Methods哪些模式有趣?-模式评价方法

记录点:Lift相关计算

2.2 Classification分类

Basic Concepts基本概念

记录点:监督/无监督学习

Classinication—A Two-Step Process分类-两步过程

Decision tree induction决策树归纳

记录点:基本算法:贪心算法

记录点:选决策树的根节点

Bayes Classification Methods贝叶斯分类方法

记录点:对朴素贝叶斯的零概率事件的拉普拉斯修正法

Rule-Based Classification基于规则的分类

记录点:“规则”的使用简述

记录点:规则剪枝公式

Model Evaluation and Selection模型评价与选择

记录点:利用T/F、P/N计算准确度、错误率、精度、召回的4个公式

记录点:数据集拆成训练集和测试集的方法


2.1 Frequent Pattern Mining频繁模式挖掘

数据挖掘-频繁模式

    

What Is Frequent Pattern Analysis?什么是频繁模式分析?

频繁模式的挖掘

   

Basic Concepts: Frequent Patterns基本概念:频繁模式

K项集,当k=1的时候为一项集

X集合里面某个x出现的频率

(relative) support指的是x出现的比例

     

Basic Concepts: Association Rules基本概念:关联规则

简写为s,支持度,X和Y同时出现

,置信度,X出现的情况下XY同时出现,是条件概率

频繁的一项集

看草稿3来理解这俩的区别,跳转草稿

   

Closed Patterns and Max-Patterns封闭模式和最大模式

小卖铺说这里是重点

closed itemset第一个条件是frequent,第二个条件是不存在更大集合,和它有相同支持度(如果该集合包含所有元素,那么肯定不存在“更大”,所以就算支持度是1它也是closed itemset)

max-pattern尽可能包含最多的集合

由这张图看出,closed itemset可能不止一个,closed itemset包含了max-pattern,我猜的

closed itemset set是all patterns简洁的表现形式

   

Scalable Frequent Itemset Mining Methods可扩展的频繁项集挖掘方法

理解红字很简单,想想就知道了,ABC三个东西出现都算频繁了,单个东西出现肯定更频繁

Apriori主打的就是一个反证法,降低没必要的生成成本

记住自连接的符号

为了保证不漏掉,abcde要按顺序列出来

最后是abcd,因为从中任取三个都有

看懂左图很简单,C1到L1、C2到L2都是选出大于2的,C1是1项集,C2是2项集

和上一张图对比就是要多理解一个C3,也不难理解,C3中每一个集合里任意两个元素的搭配在L2中都有出现就行

记录点:Apriori算法

最后得到数据库频繁三角集(?可能听错了

上图就是规范答题

接下来的伪代码需要记住,考试可能会考

详见草稿4,跳转草稿

这个算法的计算开销比较大

Candidates是候选集

虽然有剪枝,但是生成的大量数据候选集要测试

不是apriori的改进,单纯只是另外一种办法

有点像深度搜索过程

Abc取出来单独成库,在这个库里d是频繁的,那abcd就是频繁的,就像这样不断地迭代增长

记录点:FP-Growth算法

有点抽象,往下看

自己理解比看PPT好,详见草稿5,跳转草稿,伪代码也放草稿里了

这两张不用管,就是讲解过程而已

看不懂直接看下面的例子,非常好懂

记录点:ECLAT算法

    

Which Patterns Are Interesting?-pattern Evaluation Methods哪些模式有趣?-模式评价方法

新公式,提升度,这个看文字描述、不用看上面的打篮球例子

记录点:Lift相关计算

来描述上面这张图,可以把表示成分子1/9,分母(7/9)*(3/9)

   

   

2.2 Classification分类

  

Basic Concepts基本概念

无监督到2.3 2.4再细讲

记录点:监督/无监督学习

Classinication—A Two-Step Process分类-两步过程

小卖铺说这是重点

 

   

Decision tree induction决策树归纳

 所以不是所有属性都需要拿来作为判定条件的(用够了就可以停止分区),重点关注与最后想要的yes no答案关联更大的

这是构造的原理,构造的流程

记录点:基本算法:贪心算法

 “信息增益”法来找根节点

红字的意思就是上面那个决策树中第一个分水岭——年龄范围,的意思

D表示某个data set,不同的类别用Ci来表示,在一个D中某个object属于C的概率就是p

看不懂公式,还是直接看下面的例子吧

 选Gain更大的为根节点,有点东西写在草稿6,跳转草稿

记录点:选决策树的根节点

I(9,5)统计的是14个中yes有9个

 用“信息增益”法来找根节点有一个致命问题,那就是会有不确定性,举个例子,如果每个人都有一个属于自己的id号,那么用id号划分“信息增益”相关度肯定很大,但是想想肯定不可以拿id号的不同直接划分,会把集合划分得非常散

这个时候就要用到“增益比”

   

Bayes Classification Methods贝叶斯分类方法

贝叶斯公式解决的问题和全概率是相反的,解决的是当X出现的时候,造成X出现的原因是什么

条件概率就是后验概率

贝叶斯原理:计算所有的后验概率,选最大的后验概率,作出X属于哪个类别的判断

 其实我没搞懂它和找根节点有什么关系

只找分子

还是之前的数据

认真看,字多但是不难懂

X=(A条件,B条件……|大条件)就是分别的条件占大条件的数的相乘

得到这个结果再乘以大条件的概率

连乘有0结果就0了,所以只能说是朴素贝叶斯

拉普拉斯修正法:每个类别的案例+1,总数也加对应数量的1(总数不止加一个1)

记录点:对朴素贝叶斯的零概率事件的拉普拉斯修正法

  

Rule-Based Classification基于规则的分类

感觉不是什么新知识,就是把决策树换成上面那个example的样式,方便计算机理解

这里的终止条件和前面的停止分区的条件差不多,还多了一个,如果剩下的规则质量低也可以停

我看老师讲的大概意思是,不停地找规则,每个新规则就能覆盖一部分例子,直到找的规则加起来能覆盖所有的例子

记录点:“规则”的使用简述

同时,这些规则也不能包括不符合的数字

此gain不是之前的gain, pos’是指增加一个属性之后pos的个数

high accuracy体现在用了前后对数相减

生成出来的规则还要进行剪枝,原因是生成的规则对目前的数据表现良好,但对没有使用到的数据就不一定好了(不懂在说什么,背公式就对了),评判哪条规则需要出去就是剪枝

判断是否要剪掉,如果去掉某条规则之后,更高了,就要去掉这条规则

记录点:规则剪枝公式

  

Model Evaluation and Selection模型评价与选择

第一个表格的意思是,(竖排)真实的情况是/否为C1,(横排)预测的情况是/否为C1,统计每条结果,总数写在表格里

这里的是/否看成阳性/阴性,会更好理解,举例举核酸

这四个公式对应左上图就好理解了

记录点:利用T/F、P/N计算准确度、错误率、精度、召回的4个公式

记录点:数据集拆成训练集和测试集的方法

Holdout method就是把数据拆成一部分作为训练集,另一部分作为测试集,random sampling指的是这个拆数据的比例根据要求每次都调整变化

Cross validation就是假如k是10,从就把数据均分为10份,从第一份开始,训练其它9个,用该第1个作测试,以此类推,每份数据都能又作为训练又作为测试

   

这个方法针对数据比较少的数据集

有回放的随机均匀采样

(看这个课件感觉0.368是固定数)公式直接套

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值