先验概率、后验概率、条件概率以及熵、交叉熵、KL散度(相对熵)扫盲

本文介绍了概率论中的基本概念,包括先验概率、条件概率和后验概率,并通过贝叶斯公式进行详细阐述。同时,讨论了熵、相对熵(KL散度)和交叉熵的概念,用于衡量信息的不确定性和概率分布之间的差异。
摘要由CSDN通过智能技术生成

先验概率,后验概率,似然概率,条件概率,贝叶斯,最大似然

相对熵(KL散度)

熵,交叉熵,相对熵(KL散度)

熵、交叉熵和相对熵的区别与联系

先验概率

      事件发生前的预判概率。可以是基于历史数据的统计,可以由背景常识得出,也可以是人的主观观点给出。一般都是单独事件概率,如P(x),P(y)。

条件概率

      一个事件发生后另一个事件发生的概率。一般的形式为P(x|y)表示y发生的条件下x发生的概率。一般也可以通过统计求得。

后验概率

      事件发生后求的反向条件概率;或者说,基于先验概率求得的反向条件概率。概率形式与条件概率相同。一般是使用贝叶斯公式得到的。

      下面来介绍一下贝叶斯公式:

P(y|x) = ( P(x|y) * P(y) ) / P(x)

      这里:
        P(y|x) 是后验概率,一般是我们求解的目标。

       P(x|y) 是条件概率,又叫似然概率,一般是通过历史数据统计得到。一般不把它叫做先验概率,但从定义上也符合先验定义。

         P(y) 是先验概率,一般都是人主观给出的。贝叶斯中的先验概率一般特指它。

        P(x) 其实也是先验概率,只是在贝叶斯的很多应用中不重要(因为只要最大后验不求绝对值),需要时往往用全概率公式计算得到。

          实例:假设y是文章种类,是一个枚举值;x是向量,表示文章中各个单词的出现次数。在拥有训练集的情况下,显然除了后验概率P(y|x)中的x来自一篇新文章无法得到,p(x),p(y),p(x|y)都是可以在抽样集合上统计出的。

      信息熵反应了一个系统的有序化程度,一个系统越是有序,那么它的信息熵就越低,反之就越高。
    如果一个随机变量 X X 的可能取值为 X = { x 1 , x 2 , . . . , x n } ,对应的概率为 p(X=

  • 0
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值