假设有两类数据,每一类都有若干个样本;概率生成模型认为每一类数据都服从某一种分布,如高斯分布;从两类训练数据中得到两个高斯分布的密度函数,具体的是获得均值和方差两个参数;测试样本输入到其中一个高斯分布函数,得到的概率值若大于0.5,则说明该样本属于该类,否则属于另一类。
算法的核心在于获取分布函数的两个参数。具体的做法是:利用训练数据,构造似然函数,使得该似然函数最大的参数即为所求。事实上,一类数据的所有训练样本的均值和协方差即为所求。
得到其中一类的分布函数后,就可以对测试样本进行测试分类:
下图反映的是取样本的两个特征进行可视化的分类结果,可以看到只有47%的准确率。一个原