朴素贝叶斯可用于分类和回归问题,对与分类问题,有多项式模型和伯努利模型。其中多项式模型相当于用一个词袋装进所有数据集中出现过的单词(不重复),然后根据test文本中出现的每一个单词在各标签中的概率来判断这个test属于哪一类标签。
多项式模型的优化:
1.可以增加词袋的大小,即将测试集中的单词也加入到词袋中。
2.拉普拉斯平滑,减少0概率的出现,导致最终概率出现很多0,无法比较。
3.拉普拉斯平滑公式中分子的1可以修改,分母的V可以改成整个词袋中的单词个数。
朴素贝叶斯可用于分类和回归问题,对与分类问题,有多项式模型和伯努利模型。其中多项式模型相当于用一个词袋装进所有数据集中出现过的单词(不重复),然后根据test文本中出现的每一个单词在各标签中的概率来判断这个test属于哪一类标签。
多项式模型的优化:
1.可以增加词袋的大小,即将测试集中的单词也加入到词袋中。
2.拉普拉斯平滑,减少0概率的出现,导致最终概率出现很多0,无法比较。
3.拉普拉斯平滑公式中分子的1可以修改,分母的V可以改成整个词袋中的单词个数。