机器学习(贝叶斯学习和决策树学习)

一、贝叶斯学习

1.贝叶斯定理
贝叶斯定理用于求解以下问题:已知某条件概率,如何得到两个事件交换后的概率,也就是在已知P(A|B)的情况下如何求得P(B|A)。这里先解释什么是条件概率。
P(A|B)表示事件B已经发生的前提下事件A发生的概率,称为事件B发生的条件下事件A的条件概率。                                                                                                                                      其基本求解公式为:P(A\B)=P(AB)/P(B)

 2.朴素贝叶斯分类算法
朴素贝叶斯分类算法是基于贝叶斯定理的,它的工作过程如下:
(1)每个数据样本用一个n维特征向量X={&i,X2,....Xn}表示,分别描述对n个属性Ai,A2,... ,An样本的n个度量。(2)假定有m个类C1,C2.....Cm。

贝叶斯分类是一类以贝叶斯定理为基础的分类算法的总称,朴素贝叶斯分类是其中之一,这里的“朴素”指各个特征之间是相互独立、互不影响的。主要应用于:求已知一些特征函数,求其属于某一类别的概率。

P(类别|特征1,特征2,特征3...)=P(特征1,特征2,特征3...|类别)·P(类别)/P(特征1,特征2,特征3...)

假设各个特征相互独立,则:

P(类别|特征1,特征2,特征3...)=P(特征1,特征2,特征3...|类别)·P(类别)/[P(特征1)·P(特征2)·P(特征3)·...]
如下例题:

 

算法流程 :

 二、决策树学习
决策树又称为判定树,是常用于分类和预测的一种树形结构,是应用最为广泛的推理算法之一,决策树学习算法有很多,常用的有ID3、ID4、C4.5、 CART 等。决策树是一种由节点和边构成的用来描述分类过程的层次数据结构。每个节点代表对某一属性的一次测试,每条边代表一个测试结果,叶节点代表某个类或类的分布。在决策树种,从根节点到叶节点的每一条路径都代表一个具体的实例,并且同一路径上的所有属性之间为合取关系,不同路径之间为析取关系。

ID3算法
以下为决策树的经典学习算法一ID3算法。

ID3算法是 JR . Quinlan 首先提出的。ID3算法通过使用信息增益( information gain )来选择测试属性。这种度量称为属性选择度量或分裂的优良性度量。选择具有最高信息增益的属性作为当前节点的测试属性。ID3的数学基础是信息熵和条件熵。而熵实际上就是系统信息量的加权平均。

对于数据集 S ,若对任意一个数据 s=c ( s属于 S )有 s 个不同取值选项,那么数据集对于这 s 个状态的信息熵为

 

其中, P i是数据集中取值为的数据的比例。在ID3中,通常用以2为底的对数。

样本熵:

 

 信息增益为:

 ID3算法的学习过程:
首先以整个例子集作为决策树的根节点 S ,并计算 S 关于每个属性的期望熵(即条件熵);然后选择能使 S 的期望熵为最小的一个属性对根节点进行分裂,得到根节点的一层子节点;接着再用同样的方法对这些子节点进行分裂,直至所有叶节点的熵值都下降为0为止。这时,就可得到一棵与训练例子集对应的熵为 O 的决策树,即ID3算法学习过程所得到的最终决策树。该树中每一条从根节点到叶节点的路径,都代表了一个分类过程,即决策过程。

例题:

 

 


 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值