预备知识
【条件概率公式】
【全概率公式】
【贝叶斯公式】
朴素贝叶斯
【算法流程】
(1) 定义特征集合和类别集合 x = {x1,x2,...xm} y = {y1,y2,...yn}
(2) 统计P(xi | y) 和 P(yi) 的值
(3) 公式
因为样本已知,P(x1,x2,...xm)为常数,并且设特征属性之间是独立的,得到以下公式:
(4) 以P(y)*P(xi|y)的最大项索引作为x所属的类别
【高斯朴素贝叶斯】 Gaussian Naïve Bayes
当特征属性为连续值时,而且特征服从高斯分布时使用。计算P(x|y)的时候直接使用高斯分布的概率公式。训练过程,需要计算出各个类别中特征性划分特征的均值和标准差。
【伯努利朴素贝叶斯】Bernoulli Naïve Bayes
当特征属性为连续值时,分布服从伯努利分布时使用。计算P(x|y)的时候直接使用伯努利分布(二项分布)的概率公式。
【多项式朴素贝叶斯】Multinomial Naïve Bayes
当特征属性服从多项分布(离散形式),直接计算类别数目的占比作为先验概率和条件概率。
平滑因子 -- > 防止条件概率连乘出现结果等于0的情况
时,Laplace平滑; 时,Lidstone平滑; 时,不做平滑。
【贝叶斯网络】Bayesian Network
贝叶斯网络,有向无环图,一种概率图模型。
隐马尔可夫(HMM)和条件随机场(CRF)可以理解为是一种特殊的贝叶斯网络。
【代码】
from sklearn.naive_bayes import GaussianNB, BernoulliNB, MultinomialNB