![b77051712bd9bf7db3a84d72d5a2ad72.png](https://i-blog.csdnimg.cn/blog_migrate/a9fe8434eefafbed7b0c0aa5d70c9b5e.png)
朴素贝叶斯的公式如下:
以下将会使用朴素贝叶斯作邮件分类:
用朴素贝叶斯分类正常邮件的公式:
文本分析CountVectorizer & TF-IDF
- CountVectorizer
首先建立一个词典,词典为历史电邮的内容里的分词列表, 如下:
然后就需要分析每个句子的表示, 可选择使用Count 或者 Boolean:
- Boolean:
如果电邮內容是: 我们 今天 去 跑步 。
那用Boolean 表示则会是 [1,0,0,0,1,0,0,1], 相当于:
- Count:
如果电邮內容是: 你们 又 去 爬山 又 去 跑步
那用Count 表示则会是 [0,2,2,1,0,1,0,1], 相当于:
2. TF-IDF
公式如下:
Sckit-Learn里的Naive Bayes
- Gaussian Naive Bayes
数据量大,且符合Normal distribution,适用于TF-IDF
2. Multinomial Naive Bayes
数据以出现的次数形成向量, 适用于CountVectorizer, 同时也适用于TF-IDF