实战04 似是而非，概率大小——朴素贝叶斯

最新推荐文章于 2024-05-10 17:00:02 发布

老杨2011

最新推荐文章于 2024-05-10 17:00:02 发布

阅读量305

点赞数

分类专栏：机器学习实战文章标签：机器学习实战

本文链接：https://blog.csdn.net/u011322987/article/details/85725108

版权

7 篇文章 0 订阅

订阅专栏

朴素贝叶斯决策论的核心思想：选择高概率对应的类别。
贝叶斯概率：先验概率 $p (c)$ 和后验概率 $p (c ∣ x)$
贝叶斯准则： $\frac{p(x|c) p(c)}{p(x)}$

一本章的核心是：

利用条件概率来分类
如果 $p(c_1|x,y) > p(c_2|x,y)$ 那么属于类别c1
如果 $p(c_1|x,y) < p(c_2|x,y)$ 那么属于类别c2

二使用python进行文本分类
1 准备数据：从文本中构建词向量

词表（wordList）
[
[‘my’, ‘dog’, ‘has’, ‘flea’, ‘problems’, ‘help’, ‘please’],-------------（文档1）
[‘maybe’, ‘not’, ‘take’, ‘him’, ‘to’, ‘dog’, ‘park’, ‘stupid’],-----------（文档2）
… …------------------------------------------------------------------（文档 n）
]
总词表（vocabList）
[‘my’, ‘dog’, ‘has’, ‘flea’, ‘problems’, ‘help’, ‘please’,‘maybe’, ‘not’, ‘take’, ‘him’, ‘to’, ‘park’, ‘stupid’…] （无重复单词）
词向量 [0,0,1,0,0,0,0,1,0,0,0,1,0,0,0,1,…]（长度取决于vocabList）（setOfWords2Vec, bagOfWords2Vec）
词矩阵 trainMat
类别标签集 classVec = [0,1,0,1,0,1]（#1表示侮辱性文字，0表示正常言论）
- 以上词表中的文档与类别标签中的元素一一对应。
- 文档中的每个单词与词向量中的元素一一对应。

三改进分类器