朴素贝叶斯算法是基于条件概率的一种分类算法,通过概率大小来进行分类,经常用于分类文档。本文用python实现朴素贝叶斯算法,并用kaggle识别手写数字的数据集来训练,得到81%的准确率。虽然准确率可能比不上其它如SVM、神经网络等算法,但是朴素贝叶斯算法相对来说简单,计算速度也较快。
朴素贝叶斯理论说明
朴素贝叶斯的基本公式:
P(c1|w)>P(c0|w) P ( c 1 | w ) > P ( c 0 | w ) ,则w样本属于 c1 c 1 类别;
P(c1|w)<P(c0|w) P ( c 1 | w ) < P ( c 0 | w ) ,则w样本属于 c0 c 0 类别。
同样在多分类问题中, P(ci|w) P ( c i | w ) 最大时表示样本