一、贝叶斯学习
1.贝叶斯定理
贝叶斯定理用于求解以下问题:已知某条件概率,如何得到两个事件交换后的概率,也就是在已知 P ( AB )的情况下如何求得 P ( BA )。这里先解释什么是条件概率。 P ( AB )表示事件 B 已经发生的前提下事件 A 发生的概率,称为事件 B 发生的条件下事件 A 的条件概率。其基本求解公式为
2.朴素贝叶斯分类
1)概念
贝叶斯分类是一类以贝叶斯定理为基础的分类算法的总称,朴素贝叶斯分类是其中之一,这里的“朴素”指各个特征之间是相互独立、互不影响的。主要应用于:求已知一些特征函数,求其属于某一类别的概率。
P(类别|特征1,特征2,特征3...)=P(特征1,特征2,特征3...|类别)·P(类别)/P(特征1,特征2,特征3...)
假设各个特征相互独立,则:
P(类别|特征1,特征2,特征3...)=P(特征1,特征2,特征3...|类别)·P(类别)/[P(特征1)·P(特征2)·P(特征3)·...]
2)实例
3)流程
朴素贝叶斯分类算法的工作流程如下图,大致外为准备工作、分类器训练、应用3个阶段。
二、决策树学习
决策树又称为判定树,是常用于分类和预测的一种树形结构,是应用最为广泛的推理算法之一,决策树学习算法有很多,常用的有ID3、ID4、C4.5、 CART 等。决策树是一种由节点和边构成的用来描述分类过程的层次数据结构。每个节点代表对某一属性的一次测试,每条边代表一个测试结果,叶节点代表某个类或类的分布。在决策树种,从根节点到叶节点的每一条路径都代表一个具体的实例,并且同一路径上的所有属性之间为合取关系,不同路径之间为析取关系。
1)例子
给出了一个决策树的例子,从中可以看出一个客户是否购买计算机,用它预测某个人的购买意向。
2)ID3算法
以下为决策树的经典学习算法一ID3算法。
ID3算法是 JR . Quinlan 首先提出的。ID3算法通过使用信息增益( information gain )来选择测试属性。这种度量称为属性选择度量或分裂的优良性度量。选择具有最高信息增益的属性作为当前节点的测试属性。ID3的数学基础是信息熵和条件熵。而熵实际上就是系统信息量的加权平均。
对于数据集 S ,若对任意一个数据 s=c ( s属于 S )有 s 个不同取值选项,那么数据集对于这 s 个状态的信息熵为
其中, P i是数据集中取值为的数据的比例。在ID3中,通常用以2为底的对数。
样本熵:
信息增益为:
3)ID3算法的学习过程:
首先以整个例子集作为决策树的根节点 S ,并计算 S 关于每个属性的期望熵(即条件熵);然后选择能使 S 的期望熵为最小的一个属性对根节点进行分裂,得到根节点的一层子节点;接着再用同样的方法对这些子节点进行分裂,直至所有叶节点的熵值都下降为0为止。这时,就可得到一棵与训练例子集对应的熵为 O 的决策树,即ID3算法学习过程所得到的最终决策树。该树中每一条从根节点到叶节点的路径,都代表了一个分类过程,即决策过程。
4)实例