贝叶斯算法

贝叶斯算法在概率论中有详细说明,这算是概率统计的基础知识。


公式解释,当你想求B条件下A发生的概率时候,可以转化为A条件下B发生的概率和A,B概率的关系。

使用场景:

1、拼写纠正

当一个人经常输入the,tht,thc,当又一次输入了tha时候,那纠正他输入的是the,tht,thc是哪个?概率分别是多少,哪个概率最高,就会纠正为哪个。怎么判断,就需要了贝叶斯算法,当输入为tha时候,求的是P(the|tha),P(tht|tha),P(thc|tha),转化为求P(tha|the),P(tha|tht),P(tha|thc),P(A),P(B),其中P(B)可以忽略,只求P(A)*P(tha|the),P(tha|tht),P(tha|thc),转化为观察数据,也就是猜测生成我们观察到的数据的可能性大小,先验概率P(A)。


当最大似然无法做出决策时候,先验概率可以帮助来选择最高的概率。

最大似然:最符合观测数据的最有优势。

奥卡姆剃刀:较大的模型有较大的优势。越高阶的多项式越不常见。

2、垃圾邮件过滤实例

给你一封邮件,看是否为垃圾邮件还是正常邮件,D表示收到邮件中的n个单词组成,用h+和h-分别表示垃圾和正常邮件,比如,收到了1w封邮件,有1000封邮件是垃圾的邮件,那先验概率就是10%和 90%,分别是垃圾邮件和正常邮件。

D中的词d1,d2,d3。。。但是不可能正好垃圾邮件都是D中的词,所以修改为:


这里就用到朴素贝叶斯了,这里假设特征之间是独立了,所以可以化简为:


所以只要统计di这个单词在垃圾邮件中出现的频率就可以了。

比如:1000个邮件,有10w个词,频率进行排序,然后就是计算新的邮件中出现这个词的,进行计算。

总结下来:

1、由下面式子,要出来P(h+)和P(h-),还有p(D|h+),p(D|h-)。


2、P(h+)和P(h-)可以由数据得到。p(D|h+),p(D|h-)可以扩展为求下面:



  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值