目录
贝叶斯模型理论基础
条件概率公式,已知A发生时B发生的概率:
它的实质是:在给定条件下某事件发生的可能性
贝叶斯公式:
它的实质是:已知某事件发生,推导其条件的概率
在分类场景下,对贝叶斯公式进行扩展:
是第i个类别, 为某样本的n个特征,对于给定的样本来说是一给定值
那么 正比于
所以只要求得的最大值就可以判断出它属于哪个类别
假设各特征间独立,那么有
为了方便计算对两边取对数有
综上有
以文本分类为例
假设提供的学习数据中有n个分类,每个分类下有m个样本,那么第i个类别
假设每个分类都有n个特征,在已知类别i下有 , x表示特征i的总数量,y表示分类i下所有的特征总和
当对模型进行训练时,实际上就是求上述的值,在预测给定的文本时,对文本按给定的规则抽取特征,然后在各个分类下计算在各分类下计算其值,在哪个分类下概率值最大,那么该文本就属于该类
注意问题
在实际中,对于分类的每个特征有可能在某个分类是不存在,但不存在不能说该特征就一定不会在该类别下不出现,这就要对
该情况进行平滑处理