1.1.1. 朴素贝叶斯
贝叶斯公式:
换个表达形式就会明朗很多,如下:
我们最终求的p(类别|特征)即可!就相当于完成了我们的任务。
例如:
如果一对男女朋友,男生想女生求婚,男生的四个特点分别是不帅,性格不好,身高矮,不上进,请你判断一下女生是嫁还是不嫁?
这是一个典型的分类问题,转为数学问题就是比较p(嫁|(不帅、性格不好、身高矮、不上进))与p(不嫁|(不帅、性格不好、身高矮、不上进))的概率,谁的概率大,我就能给出嫁或者不嫁的答案。
朴素贝叶斯公式:
朴素贝叶斯分类有朴素一词的来源,朴素贝叶斯算法是假设各个特征之间相互独立,那么这个等式就成立了:
1.1.2. 高斯贝叶斯
GaussianNB 继承高斯朴素贝叶斯,特征可能性被假设为高斯:
1.1.3. 多项朴素贝叶斯
MultinomialNB实现multinomially分布数据的贝叶斯算法,是一个经典的朴素贝叶斯文本分类中使用的变种(其中的数据是通常表示为词向量的数量,虽然TF-IDF向量在实际项目中表现得很好),对于每一个y来说,分布通过向量参数化,n是类别的数目(在文本分类中,表示词汇量的长度)
表示标签i出现的样本属于类别y的概率
该参数 是一个平滑的最大似然估计,即相对频率计数:
表示标签i在样本集T中属于类别y的 数目
表示在所有标签中类别y出现的数目
平滑先验 a >=0表示学习样本中不存在的特征并防止在计算中概率为0,设置alpha = 1被称为拉普拉斯平滑,当α<1称为Lidstone平滑
1.1.4. 伯努利朴素贝叶斯
BernoulliNB实现了朴素贝叶斯训练和分类算法是根据多元伯努利分布的分布数据;例如,可能会有多个特征,但每一个被假定为一个二进制值(伯努利、布尔)变量。因此,这类要求的样品被表示为二进制值的特征向量;如果交给其他任何类型的数据,一个bernoullinb实例可以进行输入(取决于二值化参数)
伯努利朴素贝叶斯决策规则的基础上
在文本分类的情况下,词的出现向量(而不是字计数向量)可以用来训练和使用该分类。bernoullinb可能会执行一些数据集上的更好,尤其是那些短的文件。如果时间允许的话,建议对两种模型进行评估。