[数理知识]机器学习入门: 概率论与信息论基础

最新推荐文章于 2022-06-07 11:17:48 发布

身披白袍

最新推荐文章于 2022-06-07 11:17:48 发布

阅读量1.1k

点赞数 4

分类专栏：机器学习|数据挖掘|数学模型文章标签：信息量概率分布机器学习笔记

本文链接：https://blog.csdn.net/Shenpibaipao/article/details/89893723

版权

机器学习|数据挖掘|数学模型专栏收录该内容

28 篇文章 3 订阅

订阅专栏

本文是机器学习入门的学习笔记，重点介绍了概率论与信息论的基础知识，包括随机变量、概率分布、期望与方差、信息熵等核心概念。通过实例解析了边缘概率分布、条件概率、协方差以及常用概率分布，为机器学习的理论基础打下坚实基础。

摘要由CSDN通过智能技术生成

引言

博主最近在整理若干年来的学习笔记，期望借助博客等媒介加以记录，POST到网上以防纸质媒介丢失，也方便自己日后查阅。由于各类笔记比较杂，涉及到模糊系统、模式识别、条件随机场、深度学习等领域，难免在个别地方较为浅显且杂乱，但对于入门机器学习而言已经足以。

一、数理统计与概率论

1 随机变量(random variable)

随机变量 $x$ 被定义为可以随机取得值域 $X$ 中的一个变量，它可以是离散或连续的。

补充：随机变量是对可能状态的一种描述，往往还伴随着一个概率分布来说明每个状态的可能性。

在动态贝叶斯网络或贝叶斯分类器中，随机变量的分布是一种极为重要的知识；
但在基于样本数据的机器学习模型中，其数据分布则被隐式地忽略了，如深度学习中我们往往并不是那么关心某种特征的分布情况。

2 概率分布(probability distribution)

概率分布用来描述随机在每一个可能状态的取值可能性大小，对于离散随机变量和连续随机变量，我们有不同的记法：

对于离散随机变量，其概率分布被称为概率质量函数(probability mass function, PMF)，记法为 $P (x)$ 。
对于连续随机变量，其概率分布被称为概率密度函数(probability density function, PDF)，记法为 $p (x)$ 。

以下以离散随机变量的PMF为例，介绍几个其它概念：

对于某个随机变量，我们记 $\sim P(x)$ 表示前者服从后者的分布。
记 $P(x=x_1)$ 表示当 $x=x_1$ 时的概率。特别的， $P(x=x_1,y=y_1)$ 被称为联合概率分布(joint probability distribution)，表示 $x=x_1$ 且 $y=y_1$ 同时发生时的可能性大小。对于连续性随机变量，则称为联合概率密度。
此外，一个离散型随机变量 $x$ 在其 $k$ 个不同状态上分布的概率一致的情况，我们称其为均匀分布，即 $P(x=x_1)=P(x=x_2)=\dots=P(x=x_k)=\frac{1}{k}$ 。
对于 $\sum_{x \in X}P(x) = 1$ ，称该随机变量是可归一化的(normalized)，则是随机变量必需服从的一条性质。同理，对于连续性随机变量的归一化性质有： $\int p(x)dx=1$ 。

3 边缘概率分布(marginal probability distribution)

当我们已知【一组变量】的联合概率分布 / 联合概率密度，要了解其中某个子集的概率分布，这种定义在子集上的概率分布被称为边缘概率分布(marginal probability distribution)。

例如，若 $\forall \hat x,\hat y \in X,Y$ 都已知 $P(x=\hat x,y=\hat y)$ ，可得边缘概率： $\forall \hat x \in X,P(x=\hat x )=\sum_{\hat y}P(x=\hat x ,y=\hat y)$ PS:对于连续性随机变量，即为 $p(\hat x)=\int p(\hat x,\hat y) ~d\hat y$

例题：袋子中有两只白球三只黑球，有放回的取两次，求(X, Y)的边缘概率分布。其中：
$\begin{cases} 1,& 第一次取出的是黑球\\ 0,& 第一次取出的是白球 \end{cases},~~~~~~~~ Y= \begin{cases} 1,& 第二次取出的是黑球\\ 0,& 第二次取出的是白球 \end{cases}$

解：其联合概率分布为：
$\begin{aligned} P(X=0,Y=0)&=\frac{C_2^1C_2^1}{C_5^1C_5^1}=\frac{4}{25}\\ P(X=0,Y=1)&=\frac{C_2^1C_3^1}{C_5^1C_5^1}=\frac{6}{25}\\ P(X=1,Y=0)&=\frac{C_3^1C_2^1}{C_5^1C_5^1}=\frac{6}{25}\\ P(X=1,Y=1)&=\frac{C_3^1C_3^1}{C_5^1C_5^1}=\frac{9}{25} \end{aligned}$ 则其边缘概率分布为：
$\begin{aligned} P(X=0)&=P(X=0,Y=0)+P(X=0,Y=1)=\frac{10}{25}\\ P(X=1)&=P(X=1,Y=0)+P(X=1,Y=1)=\frac{15}{25}\\ P(Y=0)&=P(X=0,Y=0)+P(X=1,Y=0)=\frac{10}{25}\\ P(Y=1)&=P(X=0,Y=1)+P(X=1,Y=1)=\frac{15}{25} \end{aligned}$

4 条件概率

条件概率的概念比较绕，详细参考此处：[数理知识]贝叶斯公式和最大似然估计笔记

> 返回目录

5 期望、方差与协方差

5.1 期望(expectation)

期望是当一个映射 $f:x\rightarrow \hat x$ ，其输入空间 $x$ 服从分布 $P (x)$ / $p (x)$ 时，该映射 $f (x)$ 的平均值。如：
$\mathbb E_{X\sim P}[f(x)]=\sum_xP(x)f(x)=\int p(x)f(x)dx$

由于分布的可归一性，因此对于常数 $c$ ，有 $\mathbb E[cf(x)]=c\mathbb E[f(x)]$ 和 $\mathbb E[c]=c$ 成立。这个性质在方差和协方差的计算中有大量应用。

Tip： $f (x)$ 对于 $x$ 分布情况下的期望常被简记为 $\mathbb E_X[f(x)]$ 、 $\mathbb E[f(x)]$ 或 $\mu_x$ 。

显然，期望是线性的，这就意味着： $\mathbb E_X[\alpha f(x)+\beta g(x)]=\alpha \mathbb E_X[f(x)]+\beta\mathbb E_X[g(x)]$ 成立。
当 $x, y$ 相互独立时，下面这个式子也是成立的： $\mathbb E_{X,Y}[f(x)·g(y)]= \mathbb E_X[f(x)] ~ ·\mathbb E_Y[g(y)]$ 。
线性关系：当 $z=\alpha x + \beta y +\cdots$ ，则称变量 $x,y,z,\cdots$ 成线性关系。

注意：数学期望 $\mathbb E$ 在概念上不等于算术平均值 $\frac{1}{n}\sum_i^n x_i$ ，只有在 $x_i$ 等概率分布时二者等值。

5.2 方差(variance)

方差是一种度量值，它显示了当我们对随机 $x$ 依据其概率分布进行随机采样时，它的值将会呈现多大的差异性。其计算公式为： $\begin{aligned}Var(f(x))&=\mathbb E \{(f(x)-\mathbb E[f(x)])^2\}\\&=\sum_{x}P(x)(f(x)-\mu_x)^2\\&=\int p(x)(f(x)-\mu_x)^2 dx \end{aligned}$ 此外，方差的平方根被称为标准差(standard deviation)，记为 $S t d (x)$ 或 $\sigma_x$ 。

Tip：方差常常被简记为 $\sigma_x^2$ 。当方差的值很大时，则意味着 $x$ 的分布范围很广。

根据期望的线性性质，方差还可以通过这个变形式子求得： $\sigma_x^2=\mu_{x^2}-\mu_x^2$ 。
对于常数 $c$ ，根据期望的线性性质，可得： $\sigma_{cx}^2=c^2\sigma_x^2$ 。
此外，方差不受一个全局常数增量的影响，即 $\sigma_{x\pm c}^2=\sigma_x^2$ ，其中 $c$ 为一个常数。在这个性质在归一化中常被用到。
特别的，当 $x, y$ 为相互独立的随机变量时，方差也具有线性性质： $\sigma_{x\pm y}^2=\sigma_x^2+\sigma_y^2$ 。
否则，当其不相互独立时， $\sigma_{x\pm y}^2=\sigma_x^2+\sigma_y^2 \pm Cov(x,y)$ 。

5.3 协方差(covariance)

协方差给出了两个线性随机变量的相关性度量值，其绝对值越大，二者越相关。其计算方式为：
$\begin{aligned} Cov(f(x),g(y))&=\mathbb E \{(f(x)-\mathbb E[f(x)])\times(g(y)-\mathbb E[g(y)])\}\\ &=\mu_{xy}-\mu_x\mu_y \\ 其中，\mu_{xy}&=\sum_{x_i,y_i}^{x,y} P(x=x_i,y=y_i)f(x_i)g(y_i) \end{aligned}$

Tip：显然，若两个随机变量相互独立，则其协方差为0，即完全不相关；当其值为正，表示其为正相关，即 $x$ 和 $y$ 都倾向于同时取得较大或较小的值（换句话说, $x$ 越大 $y$ 越大、 $x$ 越小 $y$ 越小）；反之则为负相关。（此外，还有种较为通俗的说法，协方差就是 $x$ 和 $y$ 在总体分布方向上的异同度，其值越大则同向程度越高）

对于常数 $a, b, c, d$ ，下面的式子成立： $Cov(a\mathbf x+b,c\mathbf y+d)=ac~Cov(\mathbf x,\mathbf y)$
同样，以下式子成立： $Cov(\mathbf x+\mathbf z,\mathbf y)=Cov(\mathbf x,\mathbf y)+Cov(\mathbf z,\mathbf y)$
当两个随机变量不相互独立时，协方差与方差满足下面的关系： $\sigma_{x\pm y}^2=\sigma_x^2+\sigma_y^2 \pm Cov(x,y)$ 。

5.4 相关系数

随机变量 $x, y$ 的相关系数 $\rho_{xy}$ 的计算公式为：
$\begin{aligned}\rho_{xy}&=\frac{Cov(x,y)}{\sigma_x ~ \sigma_y}=\frac{\mu_{xy}-\mu_x\mu_y}{\sigma_x ~ \sigma_y}\\ &=\frac{\mathbb E \{(f(x)-\mathbb E[f(x)])\times(g(y)-\mathbb E[g(y)])\}} {\mathbb E \{\vert f(x)-\mathbb E[f(x)]\vert\} \times \mathbb E \{\vert g(y)-\mathbb E[g(y)]\vert\}} \\ &=\frac{\mathbb E \{(f(x)-\mathbb E[f(x)])\times(g(y)-\mathbb E[g(y)])\}} {\mathbb E \{\vert f(x)-\mathbb E[f(x)]\vert \times \vert g(y)-\mathbb E[g(y)] \vert\}} \end{aligned}$ 相比于协方差，它可以更好的评估两个随机变量间的关联程度。

容易注意到相关系数其实就是剔除了方差量纲影响(即标准化、归一化)后的协方差。显然， $\vert \rho_{xy} \vert \le1$ 。其值的正负反应了二者分布的同向和异向性，绝对值得大小反应了同向或异向的程度大小。（换句话说，其绝对值越接近于1则二者越相关；当其值为正时为正相关，反之为负相关）

补充：关于协方差和相关系数，知乎上有一个相关答案：>如何通俗易懂地解释「协方差」与「相关系数」的概念？

下面用一个例子来感受一下相关系数的影响：

对具有相同概率分布的二项分布 $x, y$ ，有 $P(x=0)=\frac{1}{3}$ 、 $P(x=1)=\frac{2}{3}$ ，求其联合概率分布。

解：不难得知：
$\mu_x=0\times\frac{1}{3}+1\times\frac{2}{3}=\frac{2}{3}=\mu_y$ $\sigma_x^2=\frac{1}{3}\times(0-\mu_x)^2+\frac{2}{3}\times(1-\mu_x)^2=\frac{2}{9}=\sigma_y^2$ 设其相关系数为 $\rho_{xy}$ 、协方差为 $C o v (x, y)$ ，得：
$\begin{aligned} \rho_{xy}&=\frac{Cov(x,y)}{\sigma_x\sigma_y}\\ &=\frac{\mu_{xy}-\mu_x\mu_y}{\sigma_x\sigma_y} \end{aligned}$ 又∵
$\begin{aligned} \mu_{xy}&=P(x=0,y=0)\times0\times0+P(x=0,y=1)\times0\times1\\&+P(x=1,y=0)\times1\times0+P(x=1,y=1)\times1\times1\\ &=P(x=1,y=1) \end{aligned}$ ∴其联合概率分布为：
$\begin{aligned} P(x=1,y=1)&=\rho_{xy}\sigma_x\sigma_y+\mu_x\mu_y=\frac{2\rho_{xy}+4}{9}\\ P(x=1,y=0)&=P(x=1)-P(x=1,y=1)=\frac{2-2\rho_{xy}}{9}\\ P(x=0,y=1)&=P(y=1)-P(x=1,y=1)=\frac{2-2\rho_{xy}}{9}\\ P(x=0,y=0)&=P(x=0)-P(x=0,y=1)=\frac{1+2\rho_{xy}}{9}\\ \end{aligned}$

分析以上结果：

当二者成正相关时，随着相关系数的增大，二者同时取得1和同时取得0的概率变大，二者取值分别为0、1的概率逐渐塌缩到0，即二者分布同向性逐渐增大；
当二者成负相关时，随着相关系数的减小，二者取值分别为0、1的概率逐渐增大，二者同时取得1和同时取得0的边缘概率逐渐减小，即二者分布异向性逐渐增大。（需要注意的是，由于联合概率是一个大于等于零的实数，在本题中二者概率分布相同时，相关系数最小只能取得 -0.5）

6 常用概率分布

6.1 离散型概率分布或范畴分布(categorical distribution)

名称	分布	期望	方差	备注
0-1分布或伯努利(Bernoulli)分布	$P(x=k)=p^k(1-p)^{(1-k)}$ $k = 0, 1$	$p$	$p (1 - p)$	$P (x = 1) = p, P (x = 0) = 1 - p$
二项分布 $x\sim B(n,p)$	$P(x=k)=C_n^kp^kq^{n-k}$ $k=1,2,,\cdots,n$	$n p$	$n^2p^2+npq$	$P (事件 A 发生) = p, q = 1 - p$ ， $n$ 是实验重复次数 $P (x = k)$ 是 $n$ 次实验中事件A发生 $k$ 次的概率
几何分布	$P(x=k)=q^{k-1}p$ $k=1,2\cdots$	$\frac{1}{p}$	$\frac{1-p}{p^2}$	$P (事件 A 发生) = p, q = 1 - p$ ， $k$ 是实验重复次数 $P (x = k)$ 是恰好重复 $k$ 次实验后事件A才发生的概率
超几何分布	$P(x=k)=\frac{C_M^kC_{N-M}^{n-k}}{C_N^n}$ $k=1,2\cdots n$	$n\frac{M}{N}$	$\frac{nM(N-M)(N-n)}{N^2(N-1)}$	$N$ 个产品中有 $M$ 个目标产品，任取 $n$ 件，恰好取出 $k$ 件 $M$ 的概率
泊松(Poisson)分布 $x\sim P(\lambda)$	$P(x=k)=\frac{\lambda^k}{k!}e^{-\lambda}$ $k=0,1,\cdots$	$\lambda$	$\lambda$	\

6.2 连续型概率分布

名称	分布	期望	方差	备注
均匀分布 $x\sim U(a,b)$	$f(x)=\frac{1}{(b-a)},~a<x<b$	$\frac{a+b}{2}$	$\frac{(b-a)^2}{12}$	$x$ 在区间 $(a . b)$ 上均匀分布
指数分布 $x\sim E(\lambda)$	$f(x)=1-e^{-\lambda x},~x\ge0$	$\frac{1}{\lambda}$	$\frac{1}{\lambda^2}$	\
正态分布或高斯(Gauss)分布 $x\sim N(\mu,\sigma^2)$	$f(x)=\sqrt{\frac{1}{2\pi\sigma^2 }}\exp \left ( -\frac{1}{2\sigma^2}(x-\mu)^2 \right ),~-\infin<x<\infin$	$\mu$	$\sigma^2$	$\frac{x-\mu}{\sigma} \sim N(0,1)$
多维正态分布 $x\sim N(\mu,\Sigma)$	$f(\mathbf x)=\sqrt{\frac{1}{(2\pi)^n\det(\Sigma) }}\exp \left ( -\frac{1}{2}(\mathbf x- \mu)^T \Sigma^{-1}(\mathbf x- \mu)\right )$	$\mu$	$\Sigma$	$\mathbf x\in \R^n$ ， $\mu$ 为均值列向量 $\det(\Sigma)$ 为方差矩阵的行列式
拉普拉斯(Laplace)分布 $x\sim La(\mu,\gamma)$	$f(x)=\frac{1}{2\gamma}\exp \left( -\frac{\vert x-\mu\vert}{\gamma}\right)$	$\mu$	$2\gamma^2$	其关于 $x=\mu$ 对称，对称点处有极大值 $\frac{1}{2\gamma}$

6.3 混合型概率分布

名称	分布	期望	方差	备注
经验分布 $x\sim Emp(n,\mu)$	$f(\mathbf x)=\frac{1}{n}\sum_{i=1}^n\delta(\mathbf x-\mathbf x^{(i)})$	\	\	$\delta(·)$ 是狄拉克函数 (dirac delta function)

狄拉克函数(dirac delta function)： $\delta(x-\mu)$ 被定义为除了 $x=\mu$ 以外所有点的值都为0但积分为1的窄域函数。

> 返回目录

二、信息论基础

信息论主要研究的是一个信号包含的信息量以及如何对它进行量化。

信息论的量化标准

信息论基于一种特别的方式来量化一个信号中所含有信息的量：

一定能发生的事情不包含任何信息量，如太阳每天都会升起并不能带来任何的信息；
低概率事件发生所带来的信息量要多于高概率事件发生所带来的信息量；
独立事件的信息量是线性、可增的，如投掷硬币两次的信息量投掷一次的两倍；
任何信号的信息量是正的。

信息论中有一个很有意思的观点，就是不太可能发生的事居然发生了，要比一件经常发生的事发生了更有意义。因为，在信息论中，我们接收到一个信息，要猜测源信息，更多的是通过类似条件概率的贝叶斯规则来推断的。

例如事件A有三种导致的原因而事件B只有一种导致它发生的原因，相对的事件B发生的概率要小得多，一旦事件B发生我们就可以立马推断出它发生的原因，而事件A发生时我们还需要更多的进一步信息来确定就究竟是哪个原因导致了事件A的发生。
通俗地理解，一个信号所具有的信息量的大小跟其不确定性有关——不确定性越大信息量越大。而不确定性则跟概率分布密不可分：当可能的原因很多时或各个原因的发生概率几乎一致时，事情的不确定性越大，因为你很难根据贝叶斯规则来推断究竟是哪个原因触发了该信号，因此从该信息可推断的可能事件也就越多，该信号包含的信息量自然越大。

补充：对于这些量化思想，从直观上可能并不好理解。我偏向于通俗一点的来解释它们：

假如有人跟你说“明天太阳从东边升起”，哪怕说了一百遍也并没有带来什么额外的信息，因为这是已经确定得不能再确定的事，你也早就已经知道这回事了，他说的再多你也不会得到新的信息；
但如果有人告诉你“太阳明天从西边升起”，这就非常有意思了，你马上得知了新的信息——“有什么原因导致太阳不从东边升起了”。
而如果有人告诉了你两件事，第一件事让你知道了“太阳即将从西边出来”，第二件事让你知道了“地球反过来转了”，于是你就明白了“太阳从西边出来是因为地球反过来转了”，这两个独立事件的信息量是可叠加的。
至于任何信号的信息量是正的…总不能别人告诉了你一件事反而还让你丢了自身原本就有的部分知识(信息)？

1 自信息(self-information)

基于以上基本思想，信息论中给出了一个事件的衡量标准——自信息(self-information)： $I(x)=-\log P(x)$ 其中， $P (x)$ 是事件 $x$ 的发生概率，显然该概率取值范围为 $(0, 1]$

当以 $e$ 为底时，其单位为奈特(nats)；当以 $2$ 为底时，其单位为比特(bit)。
当以 $e$ 为底时，1奈特是以 $\frac{1}{e}$ 的概率观测一个事件时获取的信息量。
注意到，当某个取值的发生概率特别小或者不可能发生时，自信息量将会特别大，我们约定： $lim_{P(x) \rightarrow 0}I(x)=0$ 。

我们来验证自信息是否符合信息论的信息量化思想：

当 $P (x) = 1$ 时， $I (x) = - l o g P (x) = 0$ ；
当 $P(x_1)<P(x_2)$ 时， $I(x_1)>I(x_2)$ ；
$I(x_1)+I(x_2)=-(\log P(x_1)+\log P(x_2))=-\log P(x_1)·P(x_2) > I(x_i) ~,i=\{1,2\}$ ；
由于 $P(x)\in[0,1]$ ，所以 $I (x) > 0$ ；

2 信息熵 / 香农熵(Shannon entropy)

当我们观测一个事件，能从中获得多少信息呢？已知一个事件有 $k$ 种可能的结果，每种结果的对应的概率为 $P(x_i)=P_i$ ，根据自信息的定义，我们可以得到香农熵： $H(x)=-\sum_i^k P_i\log P_i=\mathbb E_{x \sim P}[I(x)]$

Tip：香农熵 $\mathbb E_{x \sim P}[I(x)]$ 实际上就是自信息 $I (x)$ 在 $x$ 服从概率分布 $P (x)$ 时的数学期望。也就是我们期望获得的自信息量(均值)。

例题：
假设事件A有两可能的取值且发生概率相等，则其香农熵 $H(x)=-2\times \frac{1}{2}log_2\frac{1}{2}=1(bit)$ 。
两个事件的自信息都为 $-log_2\frac{1}{2}=1(bit)$ ，即1比特是以 $\frac{1}{2}$ 的概率观测一个事件时获取的信息量。
若事件B有四种可能的取值且发生概率相等，则其香农熵将增加至2比特——观测事件B所带来信息量比观测事件A要多，事件B的不确定性要大于事件A。

在通道编码及通信方面，香农熵给出了编码把事件编码成一个信息所需要的最少比特数（以2为底时）。例如对例题中的事件B中编码就需要两比特——“00，01，10，11”分别对应四种可能的取值。此时，某个值的自信息量即其对应的编码长度。
当事件 $x$ 是连续的时候，香农熵也被称为微分熵(differential entropy)。

3 KL散度(Kullback-Leibler divergence) / 相对熵(relative entropy)

若同一个随机变量有两个单独的概率分布 $P (x)$ 和 $Q (x)$ ，则可以使用KL散度来衡量这两种分布的差异：
$\begin{aligned} D_{KL}(P||Q)&=\mathbb E_{x \sim P}[\log \frac{P(x)}{Q(x)}]\\ &=\mathbb E_{x \sim P}[\log P(x)-\log Q(x)]\\ &=\sum_{x_i} P(x_i) \times \log \frac{P(x_i)}{Q(x_i)} \end{aligned}$

KL散度( Kullback–Leibler divergence)又称相对熵(relative entropy)。
KL散度在通信编码领域中的的物理意义是——使用基于Q分布的编码方式来编码来自P分布的事件平均所需的额外比特数。

给出公式：以 $Q$ 的编码编译来自 $P$ 的样本（该式子其实即为交叉熵）所需要的平均比特数：
$H_{QP}(x)=-\sum_{x_i} \underbrace{P(x_i)}_{P样本中个字符出现频率} \times \underbrace{\log Q(x_i)}_{Q编码方式中字符长度(自信息量)}$

以上文的事件B为例，当四个事件概率分布为 $\frac{3}{8},\frac{1}{8},\frac{3}{8},\frac{1}{8}$ 时，则用 $P$ 的编码编译来自 $P$ 的样本：
$H_{PP}(x)=-2 (\frac{3}{8}\times \log \frac{3}{8}+\frac{1}{8}\times \log \frac{1}{8})=3-\frac{3}{4}log_23(bit)$ 以之前的分布为 $Q$ 且已知用 $Q$ 的编码编译来自 $P$ 的样本：
$H_{QP}(x)=-2 \log \frac{1}{4}(\frac{3}{8}+\frac{1}{8})=2(bit)$ 所以以 $Q$ 分布的编码方式编码 $P$ 分布需要增加：
$H_{QP}(x)-H_{PP}(x)=\frac{3}{4}log_23-1(bit)$ 我们直接计算KL散度有： $D_{KL}(P||Q)=2(\frac{3}{8}\times \log \frac{3}{8}\div \frac{1}{4} + \frac{1}{8}\times \log \frac{1}{8}\div \frac{1}{4})=\frac{3}{4}log_23-1(bit)=H_{QP}(x)-H_{PP}(x)$

KL散度的这种性质也将被用于参数估计中，即已知分布 $P$ ，通过 $Q^*=argmin D_{KL}(P||Q)$ 来进行拟合。
从它的物理意义不难得出，KL散度是非负的；KL散度为0，当且仅当 $P$ 和 $Q$ 为同一种分布。

4 交叉熵(cross-entropy)

跟KL散度类似，由KL散度 $D_{KL}(P||Q) = H_{QP}(x)-H_{PP}(x)$ ，可以得到交叉熵的定义：
$\begin{aligned} H(P,Q)&=H_{QP}(x)\\ &=-\mathbb E_{x \sim P}\log Q(x)\\ &=-\sum_{x_i} P(x_i) \times \log Q(x_i) \end{aligned}$ 由于 $H_{PP}(x)$ 是个常值，因此对交叉熵求最小化其实就是对KL散度求最小化。