《自然语言处理学习之路》04 贝叶斯算法、垃圾邮件识别

书山有路勤为径,学海无涯苦作舟

在这里插入图片描述

一、贝叶斯算法概述

贝叶斯(约1701-1761) Thomas Bayes,英国数学家

贝叶斯方法源于他生前为解决一个“逆概”问题写的一篇文章

贝叶斯要解决的问题∶

正向概率∶假设袋子里面有N个白球,M个黑球,你伸手进去摸一把,摸出黑球的概率是多大
M/(M+N)

逆向概率∶如果我们事先并不知道袋子里面黑白球的比例,而是闭着眼睛摸出一个(或好几个)球,观察这些取出来的球的颜色之后,那么我们可以就此对袋子里面的黑白球的比例作出什么样的推测???

Why贝叶斯?

  • 现实世界本身就是不确定的,人类的观察能力是有局限性的

  • 我们日常所观察到的只是事物表面上的结果,因此我们需要提供一个猜测

二、贝叶斯推导实例

贝叶斯案例:
在这里插入图片描述
问题前提:假设总数为U(但是现实中可能有些问题的U无法算出来)

算出穿长裤的男女生的概率:
在这里插入图片描述
求解:
在这里插入图片描述
与总人数没关系:
在这里插入图片描述
化简:
在这里插入图片描述

贝叶斯公式
在这里插入图片描述

三、贝叶斯拼写纠错实例

在这里插入图片描述
P(h):为先验概率,事先统计好的,每个词在整体语料数据库中出现的频次概率。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

四、垃圾邮件过滤实例

4.1 理论比较

最大似然估计:
在这里插入图片描述
奥卡姆剃刀:表示在实际生活中什么越常见,什么就是越好的
在这里插入图片描述

4.2垃圾邮件过滤案例

在这里插入图片描述
P(h+) = 数据库中垃圾邮件数目 / 总邮件数目

P(D/ h+) = D单词 在 垃圾邮件中出现的概率

在这里插入图片描述
原始问题比较严格,需要一模一样。所以可以将原始问题进行扩展:

将原始的问题转化为朴素贝叶斯问题
在这里插入图片描述
最后就可以计算出属于正常邮件与垃圾邮件的概率:

在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

驭风少年君

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值