秒懂机器学习---朴素贝叶斯进行垃圾邮件分类最最最简单实战

秒懂机器学习---朴素贝叶斯进行垃圾邮件分类最最最简单实战

一、总结

一句话总结:

用最简单的实例来演示 算法是最方便的能洞悉算法实质的方式
注意有多个词表,而不是一个混合的词表

 

1、朴素贝叶斯进行垃圾邮件分类的计算的时候的注意点是什么?

P(关键词1,关键词2))可以不计算:P(结果|关键词1,关键词2) = P(关键词1,关键词2|结果)*P(结果)/P(关键词1,关键词2))中P(关键词1,关键词2))为恒量,可以不计算,因为不不同结果情况下这个值都是一样的
没出现的词概率弄低点,比如弄成1/1000,需要看数据量

 

2、朴素贝叶斯进行垃圾邮件分类时,词表是分一个还是分两个?

两个:一个是正常邮件词频,一个是垃圾邮件词频

 

3、朴素贝叶斯进行垃圾邮件分类演算时,【计算测试邮件】的具体步骤是什么?

1、测试邮件为正常邮件的几率
2、测试邮件为垃圾邮件的几率
3、比较得出测试邮件为哪种邮件

 

1、测试邮件为正常邮件的几率
P(正常邮件|便宜,电器) = P(便宜,电器|正常邮件)*P(正常邮件)=P(便宜|正常邮件)*P(电器|正常邮件)*P(正常邮件)=(1/1000)*(1/1000)*(2/4) =0.5*10^(-6)

2、测试邮件为垃圾邮件的几率
P(垃圾邮件|便宜,电器) = P(便宜,电器|垃圾邮件)*P(垃圾邮件)=P(便宜|垃圾邮件)*P(电器|垃圾邮件)*P(垃圾邮件)=(1/4)*(1/1000)*(2/4) =125*10^(-6)

3、比较得出测试邮件为哪种邮件
直接比大小好了,就不计算概率了:125*10^(-6) > 0.5*10^(-6) ,所以这封邮件为垃圾邮件

 

 

 

 

二、朴素贝叶斯进行垃圾邮件分类最简单实战

1、数据

比如正常邮件1:
明天上午6点上班(为简便计算,取:明天 上班)
比如正常邮件2:
因为你工作勤奋,下个月即将升值加薪。(为简便计算,取:勤奋 加薪)

比如垃圾邮件1:
域名 347/元 一年,你值得拥有。(为简便计算,取:值得 拥有)
比如垃圾邮件2:
最便宜的洗发水,非常值得入手。(为简便计算,取:便宜 值得)


测试邮件1:
最便宜的电器,最便宜的电脑(为简便计算,取:便宜 电器)

 

2、解答过程

步骤一:获取正常邮件词频

明天 1
上班 1
勤奋 1
加薪 1

步骤二:获取垃圾邮件词频

值得 2
拥有 1
便宜 1

步骤三:计算测试邮件

0、注意点:

P(结果|关键词1,关键词2) = P(关键词1,关键词2|结果)*P(结果)/P(关键词1,关键词2))中P(关键词1,关键词2))为恒量,可以不计算,因为不不同结果情况下这个值都是一样的

没出现的词概率弄低点,弄成1/1000

 

1、测试邮件为正常邮件的几率

P(正常邮件|便宜,电器) = P(便宜,电器|正常邮件)*P(正常邮件)=P(便宜|正常邮件)*P(电器|正常邮件)*P(正常邮件)=(1/1000)*(1/1000)*(2/4) =0.5*10^(-6)

2、测试邮件为垃圾邮件的几率

P(垃圾邮件|便宜,电器) = P(便宜,电器|垃圾邮件)*P(垃圾邮件)=P(便宜|垃圾邮件)*P(电器|垃圾邮件)*P(垃圾邮件)=(1/4)*(1/1000)*(2/4) =125*10^(-6)


3、比较得出测试邮件为哪种邮件

直接比大小好了,就不计算概率了:125*10^(-6) > 0.5*10^(-6) ,所以这封邮件为垃圾邮件

 

 

 

转载于:https://www.cnblogs.com/Renyi-Fan/p/10982897.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值