贝叶斯算法学习与记录第一弹

最新推荐文章于 2024-08-31 15:34:19 发布

淅淅同学

最新推荐文章于 2024-08-31 15:34:19 发布

阅读量371

点赞数

分类专栏： python基础文章标签：算法学习

本文链接：https://blog.csdn.net/m0_57297999/article/details/128899908

版权

python基础专栏收录该内容

44 篇文章 0 订阅

订阅专栏

文章介绍了贝叶斯算法的起源及其主要解决的正向和逆向概率问题。通过示例解释了贝叶斯公式的应用，如拼写纠正和垃圾邮件过滤。文章强调了在不确定性和需要推测的情况下使用贝叶斯算法的原因，并提供了模型比较理论的概述。

摘要由CSDN通过智能技术生成

一、贝叶斯算法起源

贝叶斯算法源于一个叫贝叶斯的人为了解决“逆概”问题而创作的；

二、贝叶斯主要解决的问题

贝叶斯主要解决的问题：
正向概率：假设袋子里面有n个白球，m个黑球，你伸手进去摸一把，摸出黑球的概率是多大；
逆向概率：如果我们事先不知道袋子里面黑白球的比例，闭着眼睛随便摸出一个或多个球，
观察这些取出来的球的颜色之后，我们可以就此对袋子里面的黑白球的比例作出什么样的推测？

三、为什么使用贝叶斯

为什么使用贝叶斯？
1、现实世界本身是不确定的，人类的观察能力是有限的；
2、我们日常观察到的只是事物表面上的结果，因此我们需要提供一个猜测；

四、问题：

五、贝叶斯公式：

（求逆向概率的时候转换成正向，把难求的值转换成好求的）
在这里插入图片描述

六、拼写纠正例子：

import urllib
import urllib.request

import re
import collections
def words(text):return re.findall('[a-z]+',text.lower())
def train(features):
    model=collections.defaultdict(lambda:1)#所有词统计完一遍之后定义其 至少出现1次，概率为0代表几乎不可能发生
    for f in features:
        model[f]+=1
    return model
NWORDS=train(words(open('big.txt').read()))
#读取语料库语言，单词抽取，转换小写
alphabet='abcdefghijklmnopqrstuvwxyz'
def edits1(word):
    n=len(word)
    return set([word[0:i]+word[i+1:]for i in range(n)]+
                [word[0:i]+word[i+1]+word[i]+word[i+2:]for i in range(n-1)]+
                [word[0:i]+c+word[i+1:]for i in range(n) for c in alphabet]+
                [word[0:i]+c+word[i:]for i in range(n+1) for c in alphabet])
def known_edits2(word):
    return set(e2 for e1 in edits1(word)for e2 in edits1(e1) if e2 in NWORDS)
def known(words):return set(w for w in words if w in NWORDS)
def correct(word):
    candidates=known([word])or known(edits1(word))or known_edits2(word)or [word]
    return max(candidates,key=lambda w:NWORDS[w])

在这里插入图片描述

七、模型比较理论

最大似然：最符合观测数据的（即 P(D | h) 最大的）最有优势
奥卡姆剃刀： P(h) 较大的模型有较大的优势（目标越多）
掷一个硬币，观察到的是“正”，根据最大似然估计的精神，我们应该
猜测这枚硬币掷出“正”的概率是 1，因为这个才是能最大化 P(D | h)
的那个猜测
如果平面上有 N 个点，近似构成一条直线，但绝不精确地位于一条直线
上。这时我们既可以用直线来拟合（模型1），也可以用二阶多项式（模
型2）拟合，也可以用三阶多项式（模型3），特别地，用 N-1 阶多项式
便能够保证肯定能完美通过 N 个数据点。那么，这些可能的模型之中到
底哪个是最靠谱的呢？
奥卡姆剃刀：越是高阶的多项式越是不常见