朴素贝叶斯算法原理
朴素贝叶斯分类器(Naive Bayes Classifier)的优点是运算时间短、数学原理清晰,我在MNIST和CIFAR-10数据集上测试,错误率分别为15.74%和58.45%。
实在看不懂,不如先复(yu)习一下概率统计;如果觉得是我写的太烂,周志华教授的《机器学习》书中,朴素贝叶斯分类器写的很清楚。
朴素贝叶斯算法
定义 x 为样本, ω 为标记,则将样本和标记用概率公式表示:
- P(ω) 为先验概率,代表 ω 在所有标记中出现的概率。
- P(x|ω) 为似然,代表在 ω 标记下,出现样本 x 的概率。
- P(ω|x) 为后验概率,代表 x 出现的情况下,样本标记为 ω 的概率。
- P(x) 代表样本 x 出现的概率。
训练样本
根据Bayes公式,后验概率可以由先验概率和似然表示:
P(ω|x)=P(ω)P(x|ω)P(x)
在分类问题中,我们认为 P(x) 为常数, P(ω) 和 P(x|ω) 可由训练样本计算得到, P(ω|x) 即为所求的结果(在证据 x 出现的前提下,取得标记为 ω 的概率)。上式可以表示为:
P(ω|x)∝P(ω)P(