标签(空格分隔): 王小草机器学习笔记
##1. 概率论知识
###1.1 先验概率与后验概率
假设有两个事件A和B:
P(A) 为A的先验概率,它不考虑任何B事件的因素;
P(B) 也为B的先验概率,它不考虑任何A事件的影响;
P(A/B) 是B事件发生后,A事件发生的概率,此时A受到B的影响,故称为A的后验概率;
P(B/A) 是A事件发生后,B事件发生的概率,同理,称为B的后验概率。
###1.2 条件概率
要想求得p(A/B),即B发生的情况下A发生的概率,可以运用以下条件概率公式:
###1.3 全概率公式
假设一个事件A发生的概率由一系列的因素决定:V1,V2,V3…
则事件A的概率可以用下面的全概率公式得到:
P(A) = P(A/V1)P(V1) + P(A/V2)P(V2) + P(A/V3)P(V3)…
表示成公式为:
###1.4 贝叶斯定理
根据以上公式,故贝叶斯定理给出:
这个贝叶斯公式的意义在于,在实际的项目中,P(A/B)往往很容易求得,而反之,P(B/A)却很难计算,而实际上,我们往往需要得到的是P(B/A)。因此,贝叶斯定理为此搭起了桥梁。
##2. 朴素贝叶斯分类算法
2.1 基本方法
假设我们有一组训练数据集T:
T = {(x1,y1),(x2,y2),…,(xN,yN)}
x是一个特征向量,长度维n,即每个样本都有n个特征组成。每个特征都会有各自的取值集合,比如a(il)表示第i个特征的第l个值。
y表示的是样本的类别标签,类别集合记为{c1,c2,…,ck}
朴素贝叶斯是通过训练数据集学习联合概率分布P(X,Y)。
根据条件概率公式p(A/B)=P(AB)/P(B)可得p(AB)=P(A/B)P(B)。
所以,要求的联合概率分布p(X,Y),首先要求得先验概率P(Y),和条件概率p(X/Y).
先验概率P(Y),和条件概率p(X/Y)这两者都是可以通过训练集直接求得的。
先验概率分布:
即计算处训练集中每一个类别(k=1,2…K)出现的概率。
条件概率分布:
即计算处当类别分别为k=1,2…K时,某租特征出现的概率。
朴素贝叶斯法对条件概率做了“条件独立性假设”,即在知道了Y=ck的分布后,任何特征之间都是独立的。既然是独立的那么它们共同出现的概率就是它们各自出现的概率的乘积。于是,上面的条件概率分布公式可以转换为:
j表示第