机器学习——朴素贝叶斯代码实现

代码:

链接:https://pan.baidu.com/s/17Cm6Yq99WCT3XB0D19fqGA?pwd=3kfh 
提取码:3kfh

运行结果:

 

 判断是正常邮件还是垃圾邮件的概率:

判断的结果:

反思

朴素贝叶斯分类的优缺点:

优点:

  • 算法逻辑简单,易于实现
  • 分类过程中时空开销小

缺点:

  • 理论上,朴素贝叶斯与其他分类方法相比具有最小的误差率,但是实际上并非如此,因为朴素贝叶斯模型假设属性之间相互独立,这往往在实际中是不成立的,在属性个数比较多,或者属性之间相关性较大时,分类效果不好。
  • 在属性相关性较小时,朴素贝叶斯的性能最为良好。对于这一点,有关朴素贝叶斯之类的算法通过考虑部分关联性适度改进

反思

  •  首先先验集并不是从一个大样本中筛选出来的,所以导致每一个类的初始先验概率相同,事实上垃圾邮件的数量会多于正常邮件,搜狗中也并不是这九个类的先验概率相同
  • 如果真的按照朴素贝叶斯来计算的话,概率相乘会有许多概率相乘,多个接近0的小数相乘会容易导致python溢出,导致概率归为0,因此我么使用math.log函数的性质,将内部乘转化为外部的加法。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值