朴素贝叶斯做文本分类代码_朴素贝叶斯与文本分析

b77051712bd9bf7db3a84d72d5a2ad72.png

朴素贝叶斯的公式如下:

以下将会使用朴素贝叶斯作邮件分类:

用朴素贝叶斯分类正常邮件的公式:

郵件內的內容或者特征

文本分析CountVectorizer & TF-IDF

  1. CountVectorizer

首先建立一个词典,词典为历史电邮的内容里的分词列表, 如下:

然后就需要分析每个句子的表示, 可选择使用Count 或者 Boolean:

  • Boolean:

如果电邮內容是: 我们 今天 去 跑步 。

那用Boolean 表示则会是 [1,0,0,0,1,0,0,1], 相当于:

  • Count:

如果电邮內容是: 你们 又 去 爬山 又 去 跑步

那用Count 表示则会是 [0,2,2,1,0,1,0,1], 相当于:

2. TF-IDF

公式如下:

:代表文檔d中w的词频

:代表w词的重要性,

Sckit-Learn里的Naive Bayes

  1. Gaussian Naive Bayes

数据量大,且符合Normal distribution,适用于TF-IDF

2. Multinomial Naive Bayes

数据以出现的次数形成向量, 适用于CountVectorizer, 同时也适用于TF-IDF

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值