贝叶斯算法

最新推荐文章于 2024-04-09 16:48:18 发布

大叔爱钢琴

最新推荐文章于 2024-04-09 16:48:18 发布

阅读量333

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/N_Sapientia/article/details/80531954

版权

贝叶斯算法在概率论中有详细说明，这算是概率统计的基础知识。

公式解释，当你想求B条件下A发生的概率时候，可以转化为A条件下B发生的概率和A，B概率的关系。

使用场景：

1、拼写纠正

当一个人经常输入the，tht，thc，当又一次输入了tha时候，那纠正他输入的是the，tht，thc是哪个？概率分别是多少，哪个概率最高，就会纠正为哪个。怎么判断，就需要了贝叶斯算法，当输入为tha时候，求的是P（the|tha）,P（tht|tha）,P（thc|tha）,转化为求P（tha|the）,P（tha|tht）,P（tha|thc），P(A)，P(B)，其中P(B)可以忽略，只求P(A)*P（tha|the）,P（tha|tht）,P（tha|thc），转化为观察数据，也就是猜测生成我们观察到的数据的可能性大小，先验概率P(A)。

当最大似然无法做出决策时候，先验概率可以帮助来选择最高的概率。

最大似然：最符合观测数据的最有优势。

奥卡姆剃刀：较大的模型有较大的优势。越高阶的多项式越不常见。

2、垃圾邮件过滤实例

给你一封邮件，看是否为垃圾邮件还是正常邮件，D表示收到邮件中的n个单词组成，用h+和h-分别表示垃圾和正常邮件，比如，收到了1w封邮件，有1000封邮件是垃圾的邮件，那先验概率就是10%和 90%，分别是垃圾邮件和正常邮件。

D中的词d1，d2，d3。。。但是不可能正好垃圾邮件都是D中的词，所以修改为：

这里就用到朴素贝叶斯了，这里假设特征之间是独立了，所以可以化简为：

所以只要统计di这个单词在垃圾邮件中出现的频率就可以了。

比如：1000个邮件，有10w个词，频率进行排序，然后就是计算新的邮件中出现这个词的，进行计算。

总结下来：

1、由下面式子，要出来P(h+)和P（h-），还有p（D|h+）,p（D|h-）。

2、P(h+)和P（h-）可以由数据得到。p（D|h+）,p（D|h-）可以扩展为求下面：

大叔爱钢琴

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
贝叶斯算法

贝叶斯算法
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。