朴素贝叶斯分类器——条件概率的参数估计
1、朴素贝叶斯公式
符号说明:
符号 | 含义 |
---|---|
D | 训练集 |
D c D_c Dc | 训练集中最终分类结果为c的那部分样本的集和 |
X | 单个训练样本 |
x i ( j ) x_i^{(j)} xi(j) | 第j个样本的第i个特征的特征值 |
m | D中样本的个数 |
m c m_c mc | D c D_c Dc中样本的个数,一般情况下( m c m_c mc<m) |
然后假设:
1、 P ( x i ∣ c ) P(x_i|c) P(xi∣c)具有特定的形式,这个具体的形式是先验知识。
2、 P ( x i ∣ c ) P(x_i|c) P(xi∣c)被参数 θ c , i θ_{c,i} θc,i唯一确定。
例如:
P ( x i ∣ c ) P(x_i|c) P(xi∣c)符合高斯分布,则\mu公式其中 μ c , i \mu_{c,i} μc,i和 σ c , i \sigma_{c,i} σc,i分别表示均值和方差,也就是说
θ c , i \theta_{c,i} θc,i=( μ c , i \mu_{c,i} μc,i , σ c , i \sigma_{c,i} σc,i):
目的:利用D求出 θ c , i θ_{c,i} θc,i的值,即利用D为训练数据,得到参数,这个过程用到了概率统计中参数估计的方法。
(这东西怎么缩进啊。。。)
2、关于学派的插曲(与内容无关)
统计学界有两个学派——频率学派(Frequentist)和贝叶斯学派(Bayesian)。这两个派系对于最基本的问题——世界的本质是什么样的——看法不同。
频率学派认为:世界是确定的,有一个本体,这个本体的真值不变。我们的目标就是要找到这个真值或真值所在的范围。具体到“求正态分布的参数值”的问题,他们认为:这两个参数虽然未知,但是在客观上存在固定值,我们要做的是通过某种准则,根据观察数据(训练数据)把这些参数值确定下来。
贝叶斯学派认为:世界是不确定的,本体没有确定真值,而是其真值符合一个概率分布。我们的目标是找到最优的,可以用来描述本体的概率分布。具体到“求正态分布的参数值”的问题,他们认为:这两个参数(均值和方差),本身也是变量,也符合某个分布。因此,可以假定参数服从一个先验分布,然后再基于观察数据(训练数据)来计算参数的后验分布。
3、极大似然估计(Maximum Likelihood Estimation,MLE)
参数估计的常用策略是:
1、先假定样本特征具备某种特定的概率分布形式;
2、再基于训练样本对特征的概率分布参数进行估计;
首先解释一下似然:指某种事件发生的可能,和概率相似,区别在于,概率用在已知参数的情况下,用来预测后续观测所得到的结果;似然则正好相反,用于参数未知,但某些观测所的结果已知的情况下,用来对参数进行估计。
参数 θ c , i \theta_{c,i} θc,i的似然函数记成 L ( θ c , i ) L(\theta_{c,i}) L(θc,i),表示 D c D_{c} Dc中的 m c m_{c} mc各个样本 X 1 X_{1} X1