贝叶斯公式

最新推荐文章于 2024-05-26 08:37:15 发布

多多大人

最新推荐文章于 2024-05-26 08:37:15 发布

阅读量877

点赞数

本文链接：https://blog.csdn.net/wangche320/article/details/9224913

版权

/**
* 贝叶斯公式。
*
* P(B|A) = P(B)*P(A|B)/P(A) 对于给定观测数据，一个猜测是好是坏，取决于这个猜测本身独立的可能性大小（先验概率，Prior ）
* 和这个猜测生成我们观测到的数据的可能性大小（似然，Likelihood ）的乘积。
*
* P(A)*P(B|A) = P(B)*P(A|B)
*
* 联合概率展开
*
* P(W1W2W3...Wn) = P(W1)*P(W2|W1)*P(W3|W1W2)....*P(Wn|W1W2...Wn-1)
*
* 解决问题
*
* 1 拼写纠正
* 当输入单词wora，要能自动提示为word。即当输入一个错误的单词后，系统要能推测出正确单词的可能性最大的那一个。这个相对大小取决于P(B)*
* P(A|B)的值。
* 如何计算P(B)，统计所有文本，求先验概率，即该正确单词在全文中出现的概率。
* 如何计算P(A|B)，即敲正确单词的时候，容易敲错成哪个单词。
* 多种方式结合使用，比如，离正确单词的距离越小，概率越大。距离相等时，键盘布局上离某个字母越近，概率越大。
*
* 2 中文分词
* 一个中文句子总可以分解成一组有序的词串，而这种分解可能有多种，在给定句子的情况下，如何求出哪种分解方法的可能性最高。
* 如何计算P(B)，即该种分解方法的可能性，也就是求P(W1W2W3...Wn)，展开后发现，我们会遇到严重的数据稀疏问题，即先验统计数据太少，越来越不够用。经验简化后，变成
* P(W1)*P(W2|W1)*P(W3|W2)...... 即第一个词出现概率是多少，上一个词出现的情况下，该词紧接着出现的概率是多少。
* 如何计算P(A|B)，不需要计算，为1，因为一组分解给定后，而且是有序的，那么形成该句子的可能性是百分之百。
*

* 3 垃圾邮件过滤

* 一封邮件，判断是不是垃圾邮件。

* 如何计算P(B)，即垃圾邮件的先验概率，比较简单，统计所有邮件和已标记为垃圾邮件的个数。
* 如何计算P(A|B)，即出现垃圾邮件时，恰恰是此封邮件的概率。邮件是由多个单词组成的，即求P(W1W2W3...Wn | B)。
* 注意此时单词间是无序的，即判定是否垃圾邮件，只要要出现这些单词，就是的，不管次序。所以简化为P(W1 | B)P(W2 | B)P(W3 |
* B)P(W4 | B)，即分别统计垃圾邮件中出现某个单词的概率。
*
*/

多多大人

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
贝叶斯公式

/** * 贝叶斯公式。 * * P(B|A) = P(B)*P(A|B)/P(A) 对于给定观测数据，一个猜测是好是坏，取决于这个猜测本身独立的可能性大小（先验概率，Prior ） * 和这个猜测生成我们观测到的数据的可能性大小（似然，Likelihood ）的乘积。 * * P(A)*P(B|A) = P(B)*P(A|B) * * 联合概率展开 *
复制链接

扫一扫