一、简述贝叶斯定理
1.1什么是分类算法
通俗地讲分类算法就是把大量已知特征及类别的样本对象输入计算机,让计算机根据这些已知的类别与特征归纳出类别与特征之间的规律(准确地说应该是分类模型),最终目的是运用得到的分类模型对新输入的对象(该对象已知特征,类别是不知道的)判断出该对象所属分类。
1.2 朴素贝叶斯分类算法
分类算法常用的有很多种,朴素贝叶斯算法是其中一个比较常用的,之所以称为朴素贝叶斯算法主要是因为该算法最基本的原理是基于贝叶斯定理的,称为朴素是因为该算法成立的前提是特征之间必须得是独立的。朴素贝叶斯(Naive Bayes)算法理论基础是基于贝叶斯定理和条件独立性假设的一种分类方法。
1.3贝叶斯定理公式解说
P(A)是先验概率,表示每种类别分布的概率;
P(B|A)是条件概率,表示在某种类别前提下,某事发生的概率;该条件概率可通过统计而得出,这里需要引入极大似然估计概念。
P(A|B)是后验概率,表示某事发生了,并且它属于某一类别的概率,有了这个后验概率,便可对样本进行分类。后验概率越大,说明某事物属于这个类别的可能性越大,便越有理由把它归到这个类别下。
1.4贝叶斯定理推导
由上图可以看出,在事件B已经发生的情况下,事件A发生的概率为事件A和事件B的交集除以事件B:
同理,在事件A已经发生的情况下,事件B发生的概率为事件A和事件B的交集除以事件A:
公式解说:
通过上图图形面积可以比较形象地得出上面的公式。
由上面的公式可以得到:
上式通过转换便可得到贝叶斯定理。
二、 贝叶斯分类器
2.1 . 贝叶斯分类器 :
① 原理 : 基于统计学方法贝叶斯 ( Bayes ) 理论 , 预测样本某个属性的分类概率 ;
② 性能分析 : 朴素贝叶斯 分类器 , 与 决策树 , 神经网络 分类器 性能基本相同 , 性能指标处于同一数量级 , 适合大数据处理 ;
2.2 . 贝叶斯分类器的类型 :
① 朴素贝叶斯分类器 : 样本属性都是独立的 ;
② 贝叶斯信念网络 : 样本属性间有依赖关系的情况 ;
2.3 . 正向概率 与 逆向概率 :
① 正向概率 : 盒子中有 N 个白球 , M 个黑球 , 摸出黑球的概率是 M /N + M ;
② 逆向概率 : 事先不知道盒子中白球和黑球的数量 , 任意摸出X 个球 , 通过观察这些球的颜色 , 推测盒子中有多少白球 , 多少黑球 ;
2.4 . 多属性特征 :
如果要处理的样本数据的特征有 n 个属性 , 其取值{X1,X2,⋯,Xn} 组成了向量 X ;
2.5 . 后验概率 :
计算最终分类为 C1 时 , 多个属性的取值为 X 向量的概率 , 即 P(X∣C1)
2.6. 朴素贝叶斯由来 :
朴素地认为这些属性之间不存在依赖关系 , 就可以使用乘法法则计算这些属性取值同时发生的概率
三、 贝叶斯分类器分类的流程
已知样本 : 已知若干个样本
未知样本 : 给定 1 个未知样本 , 其有 4 个属性组成向量 X , 样本的分类有两种 , Y 和 N ; ( Yes / No )
分类步骤 :
计算两个概率 , 即
① 样本取值为 X 向量时 , 分类为 Y 的概率 , 公式为 P ( Y ∣ X ) = P ( X ∣ Y ) P ( Y )/ P ( X ) , 其中 P ( X ∣ Y ) P ( Y ) 含义是 : 样本分类 Y 的概率 P(Y) , 乘以 样本分类为 YY 前提下样本取值 X X 时的概率 P ( P(X∣Y) , 是 P(XY) 共同发生的概率 ;
② 样本取值为 X 向量时 , 分类为 N 的概率 , 公式为 P(N∣X)=P(X)P(X∣N)/P(N) , 其中 P ( X ∣ N ) P ( N )含义是 : 样本分类为 N 的概率 P(N) , 乘以 样本取值 N 时的概率 P(X∣N) , 是 P(XN) 共同发生的概率 ;
上述两个概率 , 哪个概率高 , 就将该样本分为哪个分类 ;
先验概率 : P ( Y ) , P ( N ) ;
后验概率 : P ( X ∣ Y ) P ( Y ) , P ( X ∣ N ) P ( N ) ;
上述两个公式 P ( Y ∣ X ) = P ( X ∣ Y ) P ( Y ) / P ( X ) 和 P ( N ∣ X ) = P ( X ∣ N ) P ( N )/ P ( X ) , 分母都是 P ( X ) , 只比较分子即可; 其中先验概率 P ( Y ) , P ( N ) 很容易求得 , 重点是求两个后验概率 P ( X ∣ Y ) P ( Y ) , P ( X ∣ N ) P ( N ) ;
后验概率 P ( X ∣ Y ) 求法 : 针对 X 向量中 4 个分量属性的取值 , 当样品类型是 Y 时 , 分量 1 取值为该分量属性时的概率 , 同理计算出 4 个分量属性对应的 4 个概率 , 最后将 四个概率相乘 ;
后验概率 P ( X ∣ Y ) 再乘以先验概率 P ( Y ) , 就是最终的 未知样本分类为 Y 类型的概率 ;
最终对比样本 , ① 未知样本分类为 Y 类型的概率 , ② 未知样本分类为 N 类型的概率 , 哪个概率大 , 就分类为哪个类型 ;
四、贝叶斯网
4.1-概念
贝叶斯网(Bayesian network)亦称信念网,它借助有向无环图DAG,来刻画属性自己建得依赖关系,并使用条件概率表来描述属性得联合概率分布。是一种经典的概率图模型。
贝叶斯网络(BN)是一种概率图形模型,用于在医学,生物学,流行病学,经济和社会科学等各个领域的不确定性下进行推理。
具体来说,BN用于回答诸如“这种干预的可能效果是什么?”或“哪些因素与这种影响相关?”之类的问题
一个贝叶斯网B由结构有向无环图(DAG)G和参数θ两部分构成。B=<G,θ>
网络结构G是一个有向无环图,每个节点对应一个属性,若两个属性有直接依赖关系,则它们由一条边连接起来 G=(X,E)
参数θ定量描述这种依赖关系
4.2-DAG示例
在癌症DAG中,“污染”和“吸烟者”是“癌症”的父母,他们也被称为“癌症”的直接原因。这种有向边缘编码依赖性和独立性的关系,例如,“污染”和“吸烟者”是独立的,“吸烟者”和“癌症”是依赖的。
参数集 θ 表示基于这些依赖性和独立性的条件概率
概率分布可以是离散的,也可以是连续的。如果分布是离散的,则通常表示为表格概率。
推断DAG,G和参数集θ,是BN两个主要问题。参数集是在知道DAG后确定的,因此我们专注与Bayesian network structure learning
西瓜书种给出一个例子,西瓜问题的一种贝叶斯网结构和属性"根蒂"的条件概率表 从图中网络结构可看出 色泽" 直接依赖于 "好瓜 “和"甜度”,而"根蒂"则直接依赖于"甜度"进一步从条件概率表能得到"根蒂"对"甜度"量化依赖关系?如 P( 根蒂=硬挺 |甜度=高)= 0.1等。
4.3-BN结构
学习BN的结构是一个NP-hard问题,Robinson(1973)表明递归关系:
它是 n 个变量的可能 DAG 数。如果我们有8个变量,则可能的DAG数将为7.8e11,随着变量数的增加,DAG的数量呈超指数级增长。
4.4-BN中3个变量之间的依赖关系
同父结构:给定父结点町的取值,则x3,x4条件独立.
顺序结构:给定x的值,则y和z条件独立
V型结构:亦称为冲撞结构,给定子节点x4的取值,x1和x2必不独立。
奇妙的是,若x4的取值 完全未知,则V型结构下xl,x2却是相互独立的:
由于BN的网络结构是不知道的,因此BN learning 的首要任务是根据训练数据集找出结构最”恰“的BN,评分搜索是求解这一问题的常用办法。
评分搜索,我们先定义一个评分函数(score function) ,以此来评估BN与训练数据的契合程度,然后基于这个评分函数来寻找结构最优的贝叶斯网.
4.5-吉布斯采样算法
推断-这样通过已知变量观测值来推测待查询变量的过程
证据-己知变量观测值
在现实应用中,BN的近似推断常使用吉布斯采样(Gibbs sampling)来完成。
需注意的是,由于马尔可夫链通常需很长时间才能趋于平稳分布,因此吉布斯采样算法的收敛速度较慢.
此外,若贝叶斯网中存在极端概率 “0"或"1” ,则不能保证马尔可夫链存在平稳分布,此时吉布斯采样会给出错误的估计结果。
基于约束的方法,基于一系列条件独立性测试(CI tests)消除和定向边缘。基于分数的方法代表了一种传统的机器学习方法,其目的是搜索不同的图形,从而最大化目标函数。结合基于分数和基于约束的方法的混合算法。
五、朴素贝叶斯的主要优点有:
1)朴素贝叶斯模型有稳定的分类效率。
2)对小规模的数据表现很好,能处理多分类任务,适合增量式训练,尤其是数据量超出内存时,可以一批批的去增量训练。
3)对缺失数据不太敏感,算法也比较简单,常用于文本分类。
朴素贝叶斯的主要缺点有:
1) 理论上,朴素贝叶斯模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此,这是因为朴素贝叶斯模型给定输出类别的情况下,假设属性之间相互独立,这个假设在实际应用中往往是不成立的,在属性个数比较多或者属性之间相关性较大时,分类效果不好。而在属性相关性较小时,朴素贝叶斯性能最为良好。对于这一点,有半朴素贝叶斯之类的算法通过考虑部分关联性适度改进。
2)需要知道先验概率,且先验概率很多时候取决于假设,假设的模型可以有很多种,因此在某些时候会由于假设的先验模型的原因导致预测效果不佳。
3)由于我们是通过先验和数据来决定后验的概率从而决定分类,所以分类决策存在一定的错误率。
4)对输入数据的表达形式很敏感。