朴素贝叶斯算法的关键点是特征工程,即,决定哪些特征作为样本点的特征项,构造了一个特征空间,让所有样本点映射到特征空间中。然后,设计一个方法统计出每一特征在对应类别下的概率分布。最简单的方法就是统计特征出现的次数,除以类别的样本数。如果是数值型的,那就以高斯分布来估计它的概率密度函数。
预测时,作同样的特征提取,然后根据特征的概率分布,即能获得输入数据属于各个类别的似然概率,再乘以先验概率,得出属于每个类别的后验概率,取最大值所对应的类别作为预测的结果。
朴素贝叶斯算法的关键点是特征工程,即,决定哪些特征作为样本点的特征项,构造了一个特征空间,让所有样本点映射到特征空间中。然后,设计一个方法统计出每一特征在对应类别下的概率分布。最简单的方法就是统计特征出现的次数,除以类别的样本数。如果是数值型的,那就以高斯分布来估计它的概率密度函数。
预测时,作同样的特征提取,然后根据特征的概率分布,即能获得输入数据属于各个类别的似然概率,再乘以先验概率,得出属于每个类别的后验概率,取最大值所对应的类别作为预测的结果。