朴素贝叶斯做文本分类代码_朴素贝叶斯与文本分析

最新推荐文章于 2020-12-06 17:31:44 发布

weixin_39927861

最新推荐文章于 2020-12-06 17:31:44 发布

阅读量182

点赞数

文章标签：朴素贝叶斯做文本分类代码

朴素贝叶斯的公式如下:

以下将会使用朴素贝叶斯作邮件分类:

用朴素贝叶斯分类正常邮件的公式:

郵件內的內容或者特征

文本分析CountVectorizer & TF-IDF

首先建立一个词典，词典为历史电邮的内容里的分词列表, 如下:

然后就需要分析每个句子的表示, 可选择使用Count 或者 Boolean:

如果电邮內容是：我们今天去跑步。

那用Boolean 表示则会是 [1,0,0,0,1,0,0,1], 相当于:

如果电邮內容是: 你们又去爬山又去跑步

那用Count 表示则会是 [0,2,2,1,0,1,0,1], 相当于:

2. TF-IDF

公式如下:

:代表文檔d中w的词频

:代表w词的重要性，

Sckit-Learn里的Naive Bayes

数据量大，且符合Normal distribution，适用于TF-IDF

2. Multinomial Naive Bayes

数据以出现的次数形成向量, 适用于CountVectorizer, 同时也适用于TF-IDF

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

关注关注