论文中整理的零碎知识点

最新推荐文章于 2022-07-26 11:09:01 发布

VIP文章爱吃饼干和酸奶的螺丝

最新推荐文章于 2022-07-26 11:09:01 发布

阅读量811

点赞数 2

分类专栏：自然语言处理神经网络 Python 基础

本文链接：https://blog.csdn.net/qq_33772192/article/details/86237034

版权

1.熵

信息熵:量化信息，小概率事件但信息量大比如月食，大概率事件信息量小比如太阳每天都从东方升起，所以采取在概率p前加一个log，再添负号，就满足前面的要求了，而这是针对单个个体，对-logp求期望Ex~p(-logp)是描述总体的信息量。

维基百科的解释：

在信息论中，熵（英语：entropy）是接收的每条消息中包含的信息的平均量，又被称为信息熵、信源熵、平均自信息量。这里，“消息”代表来自分布或数据流中的事件、样本或特征。（熵最好理解为不确定性的量度而不是确定性的量度，因为越随机的信源的熵越大。）来自信源的另一个特征是样本的概率分布。这里的想法是，比较不可能发生的事情，当它发生了，会提供更多的信息。由于一些其他的原因，把信息（熵）定义为概率分布的对数的相反数是有道理的。事件的概率分布和每个事件的信息量构成了一个随机变量，这个随机变量的均值（即期望）就是这个分布产生的信息量的平均值（即熵）。熵的单位通常为比特，但也用Sh、nat、Hart计量，取决于定义用到对数的底。

定义：

依据Boltzmann's H-theorem，香农把随机变量X的熵值 Η（希腊字母Eta）定义如下，其值域为{ x1, ..., xn}：

$\Eta(X) = \mathrm{E}[\mathrm{I}(X)] = \mathrm{E}[-\ln(\mathrm{P}(X))]$ 。

其中，P为X的概率质量函数（probability mass function），E为期望函数，而I(X)是X的信息量（又称为自信息）。I(X)本身是个随机变数。

当取自有限的样本时，熵的公式可以表示为：

$\mathrm{H} (X)=\sum _{{i}}{{\mathrm {P}}(x_{i})\,{\mathrm {I}}(x_{i})}=-\sum _{{i}}{{\mathrm {P}}(x_{i})\log _{b}{\mathrm {P}}(x_{i})},$

在这里b是对数所使用的底，通常是2,自然常数e，或是10。当b = 2，熵的单位是bit；当b = e，熵的单位是nat；而当b = 10,熵的单位是Hart。

pi = 0时，对于一些i值，对应的被加数0 logb 0的值将会是0，这与极限一致。

$\lim_{p\to0+}p\log p = 0$ 。

还可以定义事件 X 与 Y 分别取 xi 和 yj 时的条件熵为

$\mathrm {H} (X|Y)=-\sum _{i,j}p(x_{i},y_{j})\log {\frac {p(x_{i},y_{j})}{p(y_{j})}}$

其中p(xi, yj)为 X = xi 且 Y = yj 时的概率。这个量应当理解为你知道Y的值前提下随机变量 X 的随机性的量。

采用概率分布的对数作为信息的量度的原因是其可加性。例如，投掷一次硬币提供了1 Sh的信息，而掷m次就为m位。更一般地，你需要用log2(n)位来表示一个可以取n个值的变量

KL散度:衡量两个分布之间的距离，可以用来计算代价，不具备对称性。用这个q分布去逼近真实分布p，用logp-logq(logp-logq<0,原因暂且不知道)衡量逼近的程度，这也是针对一个个体，对logp-logq求期望Ex~p(logp)-Ex~p(logq)是总体的KL散度。

交叉熵:概率分布p与q之间的交叉熵是：用总体的信息熵加上总体的KL散度

$H(p,q) = E_p[-logq]=H(p)+D_{kl}(p||q)$

离散分布p与q的交叉熵是：

$H(p,q)= - \sum_{x}p(x)log(q(x))$

在大多数情况下，我们需要在不知道分布{\displaystyle p} $p$ 的情况下计算其交叉熵。例如在语言模型中, 我们基于训练集 $T$ 创建了一个语言模型, 而在测试集合上通过其交叉熵来评估该模型的准确率。 $p$ 是语料中词汇的真实分布，而 $q$ 是我们获得的语言模型预测的词汇分布。由于真实分布是未知的，我们不能直接计算交叉熵。在这种情况下，我们可以通过下式来估计交叉熵:

$H(T,q)=-\sum _{i=1}^{N}{\frac {1}{N}}\log _{2}q(x_{i})$

$N$ 是测试集大小， $q(x)$ 是在训练集上估计的事件 $x$ 发生的概率。我们假设训练集是从 $p(x)$ 的真实采样，则此方法获得的是真实交叉熵的蒙特卡洛估计。

JS散度：相似度衡量指标。现有两个分布P1和P2，其JS散度公式为：

Wasserstein距离度量两个概率分布之间的距离，定义如下：

2.凸函数

若这里凸集C即某个区间I，那么就是：设f为定义在区间I上的函数，若对I上的任意两点X1，X2和任意的实数λ∈（0，1），总有

f（λx1+(1-λ）x2）≤λf(x1)+(1-λ）f(x2),

则f称为I上的凸函数。损失函数只有是凸函数时，梯度下降法才能保证达到全局最优解。

凸集：实数 R （或复数 C 上）向量空间中，集合 S 称为凸集，如果 S 中任两点的连线内的点都在集合 S 内。

3.架构：

一旦产生的分工，就把所有的事情，切分成由不同角色的人来完成，最后再通过交易，使得每个个体都拥有生活必须品，而不需要每个个体做所有的事情，只需要每个个体做好自己擅长的事情，并具备一定的交易能力即可。这实际上就形成了社会的架构。

架构实际上就是指人们根据自己对世界的认识，为解决某个问题，主动地、有目的地去识别问题，并进行分解、合并，解决这个问题的实践活动

4.反向传播算法（Backpropagation）是目前用来训练人工神经网络&

最低0.47元/天解锁文章

爱吃饼干和酸奶的螺丝

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
论文中整理的零碎知识点

1.熵信息熵:量化信息，小概率事件但信息量大比如月食，大概率事件信息量小比如太阳每天都从东方升起，所以采取在概率p前加一个log，再添负号，就满足前面的要求了，而这是针对单个个体，对-logp求期望Ex~p(-logp)是描述总体的信息量。维基百科的解释：在信息论中，熵（英语：entropy）是接收的每条消息中包含的信息的平均量，又被称为信息熵、信源熵、平均自信息量。这里，“消息”代表...
复制链接

扫一扫