信息几何，KL 散度以及流形

最新推荐文章于 2023-11-03 11:45:25 发布

Kevein111

最新推荐文章于 2023-11-03 11:45:25 发布

阅读量1.2w

点赞数 12

分类专栏：机器学习矩阵理论文章标签：信息几何 fisher metric 流

本文链接：https://blog.csdn.net/carrierlxksuper/article/details/25916685

版权

机器学习同时被 2 个专栏收录

19 篇文章 1 订阅

订阅专栏

矩阵理论

4 篇文章 1 订阅

订阅专栏

信息几何在wiki的定义是：information geometry is a branch of mathematics that applies the techniques of differential geometry to the field of probability theory. This is done by taking probability distributions for a statistical model as the points of a Riemannian manifold, forming a statistical manifold. The Fisher information metric provides the Riemannian metric.换句话说就是将信息学与几何学结合的学科，我们知道信息学的基础是概率与统计，而几何学的代表之一就是微分几何以及度量。结合的方法就是：将概率分布看做是黎曼流形中的某个点，从而形成了统计流形，在这个流形中，度量采用的是Fisher metric。

下面我们将引出为什么要研究信息几何，以及从空间转化的角度来理解信息几何。

考虑最简单的一个情况：梯度下降，gradient descent，公式就是：，其中theta是被估计的参数，而指得是梯度。这个公式成立的一个重要的前提就是，自变量theta和因变量J(theta)都处于同一个空间，也就是欧氏空间中，于是他们采用的度量标准(metric)都是一样的。于是我们可以直接求出。但是在一些估计问题中，这个前提是不成立的，例如对于一组观测数值和概率分布模型，theta是需要估计的参数。对于参数的变化（自变量），我们可以直接采用欧氏度量：。但是由于自变量变化导致的因变量的变化也就是概率的变化无法用欧氏距离来进行度量。我们自然想到了度量概率分布的公式KL 散度。于是，对应的概率分布的变化：的变化值就是：-------------------------------------1