贝叶斯公式

/**
 * 贝叶斯公式。
 * 
 * P(B|A) = P(B)*P(A|B)/P(A) 对于给定观测数据,一个猜测是好是坏, 取决于这个猜测本身独立的可能性大小(先验概率,Prior )
 * 和这个猜测生成我们观测到的数据的可能性大小(似然,Likelihood )的乘积。
 * 
 * P(A)*P(B|A) = P(B)*P(A|B)
 * 
 * 联合概率展开
 * 
 * P(W1W2W3...Wn) = P(W1)*P(W2|W1)*P(W3|W1W2)....*P(Wn|W1W2...Wn-1)
 * 
 * 解决问题
 * 
 * 1 拼写纠正
 * 当输入单词wora,要能自动提示为word。即当输入一个错误的单词后,系统要能推测出正确单词的可能性最大的那一个。这个相对大小取决于P(B)*
 * P(A|B)的值。 
 * 如何计算P(B),统计所有文本,求先验概率,即该正确单词在全文中出现的概率。
 * 如何计算P(A|B),即敲正确单词的时候,容易敲错成哪个单词。
 * 多种方式结合使用,比如,离正确单词的距离越小,概率越大。距离相等时,键盘布局上离某个字母越近,概率越大。
 * 
 * 2 中文分词
 * 一个中文句子总可以分解成一组有序的词串,而这种分解可能有多种,在给定句子的情况下,如何求出哪种分解方法的可能性最高。
 * 如何计算P(B),即该种分解方法的可能性,也就是求P(W1W2W3...Wn),展开后发现,我们会遇到严重的数据稀疏问题,即先验统计数据太少,越来越不够用。经验简化后,变成
 * P(W1)*P(W2|W1)*P(W3|W2)...... 即第一个词出现概率是多少,上一个词出现的情况下,该词紧接着出现的概率是多少。
 * 如何计算P(A|B),不需要计算,为1,因为一组分解给定后,而且是有序的,那么形成该句子的可能性是百分之百。
 * 

 * 3 垃圾邮件过滤 

 * 一封邮件,判断是不是垃圾邮件。 

 * 如何计算P(B),即垃圾邮件的先验概率,比较简单,统计所有邮件和已标记为垃圾邮件的个数。
 * 如何计算P(A|B),即出现垃圾邮件时,恰恰是此封邮件的概率。邮件是由多个单词组成的,即求P(W1W2W3...Wn | B)。
 * 注意此时单词间是无序的,即判定是否垃圾邮件,只要要出现这些单词,就是的,不管次序。 所以简化为P(W1 | B)P(W2 | B)P(W3 |
 * B)P(W4 | B),即分别统计垃圾邮件中出现某个单词的概率。
 * 
 */
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值