统计自然语言处理概率论和信息论基本概念及其推导过程

最新推荐文章于 2022-10-08 19:24:30 发布

KungWahCheung

最新推荐文章于 2022-10-08 19:24:30 发布

阅读量1k

点赞数 1

分类专栏：自然语言处理文章标签：自然语言处理熵相对熵交叉熵互信息

本文链接：https://blog.csdn.net/felix_ghc/article/details/77886225

版权

本文详细介绍了统计自然语言处理中概率论和信息论的基础概念，包括概率、条件概率、贝叶斯法则、熵、联合熵、条件熵、互信息、相对熵和交叉熵的定义及推导过程，旨在帮助读者深入理解这些核心概念。

摘要由CSDN通过智能技术生成

最近看《统计自然语言处理》，遇到不少公式，在此做一下笔记，写下一些关键知识点和关键公式的推导过程。下面是书中第二章的主要内容。

2.1 概率论基本概念

2.1.1 概率

概率的三个公理
(1) 非负性： $P(A)\geq0$
(2) 规范性： $P(\Omega)=1$
(3) 可列可加性：
事件 $A_1,A_2,...,A_i,...$ 互不相容（ $A_i \cap A_j=\varnothing$ ），则有

P (⋃ i = 0 \infty A i) = \sum i = 0 \infty P (A i)

$P(\bigcup_{i=0}^ \infty A_i)=\sum_{i=0}^ \infty P(A_i)$

2.1.3 条件概率

如果 $A$ 和 $B$ 是样本空间 $\Omega$ 上的两个事件， $P(B)>0$ ，那么在给定 $B$ 时 $A$ 的条件概率 $P(A \mid B)$ 为

P (A ∣ B) = P ( A \cap B ) P ( B )

$P(A \mid B)=\frac{P(A \cap B )}{P(B)}$

概率的乘法定理

P (A \cap B) = P (B) P (A ∣ B) = P (A) P (B ∣ A)

$P(A \cap B) = P(B)P(A \mid B)=P(A)P(B \mid A)$

其一般形式为

P (A 1 \cap \dots \cap A n) = P (A 1) P (A 2 ∣ A 1) P (A 3 ∣ A 1 \cap A 2) \dots P (A n ∣ ⋂ i = 1 n - 1 A i)

$P(A_1 \cap \cdots \cap A_n)=P(A_1)P(A_2 \mid A_1)P(A_3 \mid A_1 \cap A_2)\cdots P(A_n \mid \bigcap_{i=1}^{n-1}A_i)$

条件概率的三个基本性质：
(1) 非负性： $P(A \mid B)\geq0$
(2) 规范性： $P(\Omega \mid B)=1$
(3) 可列可加性：如果事件 $A_1,A_2,\cdots,A_i,\cdots$ 互不相容，则

P (\sum i = 1 \infty A i ∣ B) = \sum i = 1 \infty P (A i ∣ B)

$P(\sum_{i=1}^ \infty A_i \mid B)= \sum_{i=1}^ \infty P(A_i \mid B)$

如果 $A_i,A_j$ 条件独立，当且仅当

P (A i, A j ∣ B) = P (A i ∣ B) P (A j ∣ B)

$P(A_i,A_j \mid B)=P(A_i \mid B)P(A_j \mid B)$

2.1.4 贝叶斯法则

假设 $B$ 是样本空间 $\Omega$ 的一个划分，即 $\sum_i B_i= \Omega$ 。如果 $A \subseteq \bigcup_i B_i$ ，并且 $B_i$ 互不相交，那么 $A= \sum_{i=1} B_i A$ ，于是 $P(A)= \sum_{i=1}P(B_i A)$ 。由乘法定理可得

P (A) = \sum i P (A ∣ B i) P (B i)

$P(A)= \sum_{i}P(A \mid B_i)P(B_i)$

上式称为全概率公式。
下面给出贝叶斯法则的精确描述。
假设 $A$ 为样本空间的事件，如果 $A\subseteq\bigcup_i B_i$ ， $P(A)>0$ ，并且 $i \neq j$ ， $B_i\cap B_j= \varnothing$ ， P(B

最低0.47元/天解锁文章

KungWahCheung

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
统计自然语言处理概率论和信息论基本概念及其推导过程

统计自然语言处理——预备知识2.1 概率论基本概念2.1.1 概率概率的三个公理 (1) 非负性： P(A)≥0P(A)\geq0 (2) 规范性： P(Ω)=1P(\Omega)=1 (3) 可列可加性：事件A1,A2,...,Ai,...A_1,A_2,...,A_i,...互不相容（Ai∩Aj=∅A_i \cap A_j=\varnothing），则有 P(⋃i=0∞Ai)=∑i
复制链接

扫一扫

专栏目录