ReduNet 中的一些原理及 The Rate-Distortion Function

最新推荐文章于 2024-04-26 09:35:40 发布

Kanny广小隶

最新推荐文章于 2024-04-26 09:35:40 发布

阅读量1.9k

点赞数 5

分类专栏：深度学习学习笔记算法学习文章标签：机器学习线性代数 ReduNet 信息率失真函数编码率

本文链接：https://blog.csdn.net/weixin_41929524/article/details/118914923

版权

算法学习同时被 3 个专栏收录

63 篇文章 4 订阅

订阅专栏

学习笔记

48 篇文章 9 订阅

订阅专栏

深度学习

26 篇文章 3 订阅

订阅专栏

本文探讨了信息率失真函数在编码率计算中的应用，包括总体空间编码率R(Z,ϵ)和类内空间编码率Rc(Z,ϵ∣Π)，并基于随机向量的协方差矩阵和体积概念建立了理论模型。通过分析向量空间的膨胀情况，确定了编码所需比特数的表达式，并证明了类内编码率函数关于分类权重的凹性，为优化提供依据。

摘要由CSDN通过智能技术生成

两种编码率

总体空间的编码率(coding rate)：
$R(\boldsymbol{Z}, \epsilon) \doteq \frac{1}{2} \log \operatorname{det}\left(\boldsymbol{I}+\frac{d}{m \epsilon^{2}} \boldsymbol{Z} \boldsymbol{Z}^{\top}\right),$
以及类内空间编码率：
$R^{c}(\boldsymbol{Z}, \epsilon \mid \Pi) \doteq \sum_{j=1}^{k} \frac{\operatorname{tr}\left(\Pi_{j}\right)}{2 m} \log \operatorname{det}\left(\boldsymbol{I}+\frac{d}{\operatorname{tr}\left(\Pi_{j}\right) \epsilon^{2}} \boldsymbol{Z} \Pi_{j} \boldsymbol{Z}^{\top}\right).$
这两个公式的出发点为信息率失真函数（The Rate-Distortion Function）。

信息率失真函数

我们首先假设一个空间有 $m$ 个向量 $w_i$ （这里的所有 $W$ 对应前面构造中的 $Z$ ），其满足： $\mu \doteq \frac{1}{m} \sum_{i} w_{i}=0$ ， $\varepsilon^{2}$ 为编码每个向量所允许的平方误差，也就是说 $\hat{w}_i$ 是 ${w}_i$ 的近似，且满足 $\mathbb{E}\left[\left\|w_{i}-\hat{w}_{i}\right\|^{2}\right] \leq \varepsilon^{2}$ ，平均意义下，为每个entry的 ${w}_i$ 所允许的平方误差为 $\varepsilon^{2}/d$ （ $d$ 为数据维度），可进行如下建模：

$\hat{w}_{i}=w_{i}+z_{i}, \quad \quad z_{i} \sim \mathcal{N}\left(0, \frac{\varepsilon^{2}}{d} I\right)$

向量 $\hat{w}_{i}$ 的协方差矩阵为：

$\hat{\Sigma} \doteq \mathbb{E}\left[\frac{1}{m} \sum_{i=1}^{m} \hat{w}_{i} \hat{w}_{i}^{T}\right]=\frac{\varepsilon^{2}}{d} I+\frac{1}{m} W W^{T} \in \mathbb{R}^{d \times d}$

这时候我们想要衡量整个空间的膨胀情况，一个直观的想法就是直接计算所有向量张成空间的体积，而这个体积正比于协方差矩阵行列式的平方根，这个是可以由几何意义看出。

其中， $e_1, e_2$ 表示 $\hat{W}$ 的奇异向量（正交的）； $\sigma_1, \sigma_2$ 表示奇异值，可得 $\hat{w}_{i}$ 张成空间的体积为（相当于所有的奇异值相乘），而 $\hat{W}$ 的奇异值为其协方差阵特征值开根，因此有如下计算公式：

$\operatorname{vol}(\hat{W}) \propto \sqrt{\operatorname{det}\left(\frac{\varepsilon^{2}}{d} I+\frac{1}{m} W W^{T}\right)}$

同样，每个随机向量 $z$ 所张成的体积为（可以理解成每个小球的体积）：

$\operatorname{vol}(z) \propto \sqrt{\operatorname{det}\left(\frac{\varepsilon^{2}}{d} I\right)} .$

为了对每个向量进行编码，我们可以将所有向量所张成的区域划分为不重叠的小球进行填充。当该区域的体积远大于球体的体积时，我们能塞进该区域的小球总数大约等于：

$\# \text { of spheres}=\operatorname{vol}(\hat{W}) / \operatorname{vol}(z)$

若用二进制数来标记感兴趣区域内的所有小球，所需的比特数为：

$\begin{aligned} R(W) & \doteq \log _{2}(\# \text { of spheres}) \\ &=\log _{2}(\operatorname{vol}(\hat{W}) / \operatorname{vol}(z))=\frac{1}{2} \log _{2} \operatorname{det}\left(I+\frac{d}{m \varepsilon^{2}} W W^{T}\right), \end{aligned}$

最后一个等式成立是由于：

$\operatorname{det}(A) / \operatorname{det}(B)=\operatorname{det}\left(B^{-1} A\right).$

根据基本不等式，几何平均数小于等于算数平均值（也就是乘积可以被求和所控制），因此膨胀空间的大小是有限制的。注意到协方差阵的特征值求和就等于其trace，因此对于有限维空间而言，膨胀这一行为是有上界的。

而针对每一类内的信息率失真函数进行加权求和后，为：
$R^{c}(W, \epsilon \mid \Pi) = \sum_{j=1}^{k} \frac{\operatorname{tr}\left(\Pi_{j}\right)}{2 m} \log \operatorname{det}\left(\boldsymbol{I}+\frac{d}{\operatorname{tr}\left(\Pi_{j}\right) \epsilon^{2}} W \Pi_{j} W^{\top}\right).$