统计自然语言处理概率论和信息论基本概念及其推导过程

本文详细介绍了统计自然语言处理中概率论和信息论的基础概念,包括概率、条件概率、贝叶斯法则、熵、联合熵、条件熵、互信息、相对熵和交叉熵的定义及推导过程,旨在帮助读者深入理解这些核心概念。
摘要由CSDN通过智能技术生成

最近看《统计自然语言处理》,遇到不少公式,在此做一下笔记,写下一些关键知识点和关键公式的推导过程。下面是书中第二章的主要内容。

2.1 概率论基本概念

2.1.1 概率

概率的三个公理
(1) 非负性: P(A)0
(2) 规范性: P(Ω)=1
(3) 可列可加性:
事件 A1,A2,...,Ai,... 互不相容( AiAj= ),则有

P(i=0Ai)=i=0P(Ai)

2.1.3 条件概率

如果 A B 是样本空间 Ω 上的两个事件, P(B)>0 ,那么在给定 B A 的条件概率 P(AB)

P(AB)=P(AB)P(B)

概率的乘法定理

P(AB)=P(B)P(AB)=P(A)P(BA)

其一般形式为

P(A1An)=P(A1)P(A2A1)P(A3A1A2)P(Ani=1n1Ai)

条件概率的三个基本性质:
(1) 非负性: P(AB)0
(2) 规范性: P(ΩB)=1
(3) 可列可加性:如果事件 A1,A2,,Ai, 互不相容,则

P(i=1AiB)=i=1P(AiB)

如果 Ai,Aj 条件独立,当且仅当

P(Ai,AjB)=P(AiB)P(AjB)

2.1.4 贝叶斯法则

假设 B 是样本空间 Ω 的一个划分,即 iBi=Ω 。如果 AiBi ,并且 Bi 互不相交,那么 A=i=1BiA ,于是 P(A)=i=1P(BiA) 。由乘法定理可得

P(A)=iP(ABi)P(Bi)

上式称为全概率公式。
下面给出贝叶斯法则的精确描述。
假设 A 为样本空间的事件,如果 AiBi P(A)>0 ,并且 ij BiBj= P(B

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值