Naive Bayes是一种非常方便,流行且重要的机器学习算法,尤其适用于文本分析和一般分类。在本文中,我将讨论高斯朴素贝叶斯:算法,其实现和应用于微型维基百科数据集(维基百科中给出的数据集)。
算法:
高斯朴素贝叶斯算法是一种概率算法。它涉及到对数据集中的类和给定类的测试数据分别进行先验概率和后验概率的计算。
先验概率的数学公式…eq-1)
所有类的先验概率都使用相同的公式计算。
eq-2)给定c类的测试数据x的后验概率的数学公式,它是给定c类的测试数据的所有特征的条件概率的乘积 .....eq-2)
但是,如何获得给定类的测试数据特征的条件概率呢?
这由从高斯(正常)分布获得的概率给出。
eq-3)给定一个类和x_i是一个测试数据特征,得到该测试特征的条件概率的数学表达式,c是一个类和相关的样本方差σ².....eq-3)
最后,使用贝叶斯定理计算给定实例(测试实例)的每个类的条件概率。
给定测试数据x, c_i类条件概率的数学表达式 ... eq-4)
对所有类重复等式4),并且显示最高概率的类最终被声明为预测结果。
从头开始在Python中实现:
如前所述,从头开始编写算法时,除了Numpy(它为Pyt