Python和MATLAB库尔巴克–莱布勒散度信息论统计学生物学和算法模型

亚图跨际

于 2024-09-27 15:47:36 发布

阅读量685

点赞数 8

分类专栏：交叉知识 Python MATLAB 文章标签：高斯混合模型聚类信息论测量复合彩票统计学离散分布速率最优估计器样本统计相似性催乳素诱导模型视觉皮层活动

本文链接：https://blog.csdn.net/jiyotin/article/details/142595313

版权

Python 同时被 3 个专栏收录

370 篇文章 24 订阅

订阅专栏

交叉知识

96 篇文章 5 订阅

订阅专栏

MATLAB

26 篇文章 0 订阅

订阅专栏

🎯要点

高斯混合模型聚类和t分布随机邻域嵌入底层分析
信息论测量
复合彩票统计学计算结果
离散分布速率最优估计器
样本统计相似性
快速闭环散度和交叉熵计算
催乳素诱导模型贝叶斯快速推理模型
视觉皮层活动神经数据分布

Python散度

在数理统计中，库尔巴克–莱布勒散度（也称为相对熵和 I 散度），表示为 $D_{ KL }(P \| Q)$ ，是一种统计距离：衡量一个参考概率分布 $P$ 与第二个概率分布 $Q{ }$ 之间的差异。从数学上讲，它定义为
$D_{KL}(P \| Q)=\sum_{x \in X } P(x) \log \left(\frac{P(x)}{Q(x)}\right)$
让我们从离散情况开始。因此，让 $P$ 和 $Q$ 成为在同一概率空间 $\mathcal { X }$ 上定义的两个概率分布。第一次尝试可能是考虑分布之间差异的平均值。确实非常接近，但以下定义略有不同。库尔巴克–莱布勒散度（也称为相对熵）KL $\| Q)$ 定义为概率 $P (x)$ 和 $Q (x)$ 的对数之间差异的平均值：
$\| Q) \stackrel{\text { def }}{=} E [\log P(x)-\log Q(x)]$
期望值使用概率 $P$ （通常写为 $\sim P$ ）计算。期望值的定义可得出以下表达式
$\| Q)=\sum_{x \in X } P(x) \log \left(\frac{P(x)}{Q(x)}\right)$
对于连续分布，我们写为
$\| Q)=\int_{-\infty}^{\infty} p(x) \log \left(\frac{p(x)}{q(x)}\right) d x$
其中 $p (x)$ 和 $q (x)$ 分别是 $P$ 和 $Q$ 的密度。

如果 $\left\{p_i\right\}$ 和 $\left\{q_i\right\}$ 是两个概率质量函数，即两个可数或有限的非负数序列，且和为 1，那么
$\sum_i p_i \log \left(\frac{p_i}{q_i}\right) \geq 0$
关于散度实际上表达了两个分布之间的某种距离，表达式
$\begin{aligned} KL(P \| Q) & =\int_{-\infty} p(x)(\log p(x)-\log q(x)) d x \\ & =\int_{-\infty}^{\infty} p(x) D(x) d x \end{aligned}$
令 $P$ 和 $Q$ 为以下分布（每个可能的结果 $x$ 都在 $X =\{0,1,2\}$ 中）：
$\begin{array}{|c|c|c|c|} \hline & 0 & 1 & 2 \\ \hline \text { 分布 } P(x) & 9 / 25 & 12 / 25 & 4 / 25 \\ \hline \text { 分布 } Q(x) & 1 / 3 & 1 / 3 & 1 / 3 \\ \hline \end{array}$
我们来计算一下 $KL(P\|Q)$ 。
$\begin{aligned} KL(P \| Q) & =\sum_x P(x) \log \left(\frac{P(x)}{Q(x)}\right) \\ & =9 / 25 \log \left(\frac{9 / 25}{1 / 3}\right)+12 / 25 \log \left(\frac{12 / 25}{1 / 3}\right)+4 / 25 \log \left(\frac{4 / 25}{1 / 3}\right) \\ & \approx 0.0853 \end{aligned}$

使用Python评估

from scipy.stats import entropy
entropy([9/25, 12/25, 4/25], qk=[1/3, 1/3, 1/3])

0.0852996013183706

import matplotlib.pyplot as plt 
import numpy as np 

p = [9/25, 12/25, 4/25]
q = [1./3,1./3,1./3]
xx = ['0','1','2']

logq = np.log(q)
logp = np.log(p)

plt.bar(xx, q, color='beige')
plt.bar(xx, p, alpha=.6, color='orange')
plt.show()

plt.bar(xx, logq, color='beige')
plt.bar(xx, logp, alpha=.6, color='orange')
plt.show()

from scipy.stats import norm, skewnorm

x = np.arange(-3,2.5,.001)
plt.plot(x, 10*skewnorm.pdf(x,-1.2), color='black')
plt.plot(x, 10*norm.pdf(x, scale=1.1), color='orange')
log1 = np.log(skewnorm.pdf(x,-1.2))
log2 = np.log(norm.pdf(x, scale=1.1))
plt.plot(x, log1, color='black')
plt.plot(x, log2, color='orange')
plt.fill_between(x, log1, log2, 
                 where=log1>=log2, facecolor='grey', 
                 interpolate=True)
plt.fill_between(x, log1, log2, 
                 where=log1<log2, facecolor='orange', 
                 interpolate=True)
plt.show()