香农定理和奈奎斯特定理区别_简单直觉的贝叶斯定理

定义

贝叶斯定理/规则/法则

bcf9349ea53abf95d03181ce4f2009b1.png

一般应用于生成式模型分类、贝叶斯估计等场景。

朴素贝叶斯

经常应用在新闻文章分类上,给定一篇文档,推测其类别标签。

2029c85746ba3782b295c1422c1053cd.png

文档的建模如上,所有文档,根据词典长度统一向量化,文档中出现某个词,则在响应位置置1,否则为0,一个词只有两个取值,所以朴素贝叶斯也称为多元伯努利模型(multi-variate Bernoulli event model)

朴素贝叶斯假设:在给定文档类别情况下,每个单词出现的概率相互独立。

aab591417683a2227b464dd79aa717dc.png

结合文档建模、NB假设,朴素贝叶斯的最优化过程如下:

e144f6420d3d1f116713ebb77d678076.png

由统计量的结果可知,各参数非常符合直觉,符合大数定律。
同时分类本身对类别数量没有要求,类似的方法直接应用于多分类。
根据贝叶斯定理,预测过程如下:

2fcfbc5e1fd4e34ad7ef51faade4f038.png

注意这里有一处异常,就是当某个单词在所有类中都没有出现过的情形:

4af202ed76a1050f53837743813a5731.png

可以采取拉普拉斯平滑(Laplace smoothing),p(y)一般都是有取值的,主要针对单词的条件概率即可。

257fc81cfc25b83301981d57404b5992.png

分子加1、分母加k,其实是引入一种均匀先验1/k,当样本量足够大时,结果与平滑之前的最大似然估计一致。

多项式事件模型

多项式事件模型(multinomial event model)与朴素贝叶斯分类差异在于对文档的建模上。

多项式事件模型将一篇文档看作一个随机生成过程:

  1. 根据p(y)选择分类
  2. 从p(X|y)分布中,采样单词,逐词生成文档。
    假设词典长度为|V|,那么每次采样,都有|V|种可能性,所以称为multinomial,区别于朴素贝叶斯的Bernoulli{0, 1}。
a8f309ecf06c099fc5319fdb2358eb8e.png

注意每一个文档的长度就不一定一样了,取决于文档包含的单词个数n。

b13724672aaf252ec5257e551004be1f.png

从最大化似然的结果来看,模型不仅仅考查文档是否包含某单词,还统计单词的频率,单词出现次数不同,概率不同。

以上贝叶斯分类相关的文献,取自Andrew Ng CS229讲义。

贝叶斯估计

贝叶斯估计与最大似然估计的不同在于参数θ也是随机变量。

  1. 最大似然估计通过最优化方法最后要学习的是一个固定的参数θ或一组向量θ,参数θ是确定的,只是不知道。
  2. 贝叶斯估计的假设是参数θ本身是个随机变量,通过分布描述。
75a810fe01636ab1901ea3e87c1eea21.png

在似然的基础上,引入了先验,当样本数据量不充足时,先验就会变得比较重要,能够引导模型更好的估计。

在已有观察基础上,预测事件x的贝叶斯估计方法为对参数θ求积分

e80d2c2b339e4284deca9be39be28e94.png

实际应用中,会对积分进行近似,使问题可求同时提高推理速度。
由于逻辑回归、朴素贝叶斯分类等都出现过似然之类的符号,由贝叶斯估计直接类比不同模型,符号很容易混淆,但明晰两点,问题能清晰不少:

  1. 采用贝叶斯估计之前,确定随机变量θx。
  2. X为观察集,对应到监督学习,应该是(X, y),一般把y当作随机变量,X当作固定的数据集。

贝叶斯线性回归

线性回归的概率视角是残差ϵ服从高斯分布。

a58e7828edbe71f44ee98937dd7a9387.png

下图能感受到贝叶斯估计是在已有数据或经验基础上,逐步学习,重新衡量,优化目标分布。
贝叶斯估计学习的是分布,不仅能推测而且还能说明推测的有对准。
这很符合人的学习认知,但是求积分是很耗时而且有的分布积分不易求,当样本数据量不足的时候,贝叶斯估计能更好地发挥先验认知。

5b57ee54daefd214b5d07da6e44331a5.png

本节相关文献来自The Machine Learning: A Probabilistic Perspective by Kevin P. Murphy。

总结

贝叶斯公式/定理/规则/法则本身很简单,表达结合先验和新数据,预测后验的自然法则。
机器学习中很多模型都可以从概率视角重新审视,也就可以采用贝叶斯定理分析。
如果不考虑时间复杂度,如果任意分布都能有效表达,基于贝叶斯定理的方法还是很有用武之地,这可能是人工智能最外层的最终的自然推理形式。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值