序
本文主要简单研究一下朴素贝叶斯算法是如何对文本进行分类的。
贝叶斯算法
贝叶斯方法把计算“具有某特征的条件下属于某类”的概率转换成需要计算“属于某类的条件下具有某特征”的概率,属于有监督学习。
后验概率 = 先验概率 x 调整因子
这就是贝叶斯推断的含义。我们先预估一个"先验概率",然后加入实验结果,看这个实验到底是增强还是削弱了"先验概率",由此得到更接近事实的"后验概率"。
公式
p(yi|x) = p(yi) * p(x|yi) / p(x)
p(所属类别yi|某种特征x) = p(所属类别yi) * p(某种特征x|所属类别yi) /p(某种特征x)
根据公式就可以把计算“具有某种特征的条件下属于某个类别”的概率转换为:“属于某种类别的条件下,具有某种特征”的概率。
先验概率
其中p(yi)称为先验概率,即在x事件发生之前,发生yi事件的概率
后验概率
p(yi|x)称为后验概率,即在x事件发生之后,发生yi事件的概率,属于可观测的值
调整因子
p(x|yi)/p(x)为调整因子,也成为可能性函数(Likelyhood),使得预估概率更接近真实概率
朴素贝叶斯算法
朴素贝叶斯理论源于随机变量的独立性:就文本分类而言,从朴素贝叶斯的角度来看,句子中的两两词之间的关系是相互独立的,即一个对象的特征向量中每个维度都是相互独立的。这是朴素贝叶斯理论的思想基础。其流程如下
- 第一阶段,训练数据生成训练样本集:TF-IDF。<