论文中整理的零碎知识点

1.熵

信息熵:量化信息,小概率事件但信息量大比如月食,大概率事件信息量小比如太阳每天都从东方升起,所以采取在概率p前加一个log,再添负号,就满足前面的要求了,而这是针对单个个体,对-logp求期望Ex~p(-logp)是描述总体的信息量。

维基百科的解释

信息论中,(英语:entropy)是接收的每条消息中包含的信息的平均量,又被称为信息熵信源熵平均自信息量。这里,“消息”代表来自分布或数据流中的事件、样本或特征。(熵最好理解为不确定性的量度而不是确定性的量度,因为越随机的信源的熵越大。)来自信源的另一个特征是样本的概率分布。这里的想法是,比较不可能发生的事情,当它发生了,会提供更多的信息。由于一些其他的原因,把信息(熵)定义为概率分布的对数的相反数是有道理的。事件的概率分布和每个事件的信息量构成了一个随机变量,这个随机变量的均值(即期望)就是这个分布产生的信息量的平均值(即熵)。熵的单位通常为比特,但也用Sh、nat、Hart计量,取决于定义用到对数的底。

定义

依据Boltzmann's H-theorem,香农把随机变量X的熵值 Η(希腊字母Eta)定义如下,其值域为{ x1, ..., xn}:

\Eta(X) = \mathrm{E}[\mathrm{I}(X)] = \mathrm{E}[-\ln(\mathrm{P}(X))]

其中,P为X概率质量函数(probability mass function),E为期望函数,而I(X)是X的信息量(又称为自信息)。I(X)本身是个随机变数。

当取自有限的样本时,熵的公式可以表示为:

\mathrm{H} (X)=\sum _{​{i}}{​{\mathrm  {P}}(x_{i})\,{\mathrm  {I}}(x_{i})}=-\sum _{​{i}}{​{\mathrm  {P}}(x_{i})\log _{b}{\mathrm  {P}}(x_{i})},

在这里b对数所使用的,通常是2,自然常数e,或是10。当b = 2,熵的单位是bit;当b = e,熵的单位是nat;而当b = 10,熵的单位是Hart。

pi = 0时,对于一些i值,对应的被加数0 logb 0的值将会是0,这与极限一致。

\lim_{p\to0+}p\log p = 0

还可以定义事件 X 与 Y 分别取 xi 和 yj 时的条件熵

{\displaystyle \mathrm {H} (X|Y)=-\sum _{i,j}p(x_{i},y_{j})\log {\frac {p(x_{i},y_{j})}{p(y_{j})}}}

其中p(xiyj)为 X = xi 且 Y = yj 时的概率。这个量应当理解为你知道Y的值前提下随机变量 X 的随机性的量。

采用概率分布的对数作为信息的量度的原因是其可加性。例如,投掷一次硬币提供了1 Sh的信息,而掷m次就为m位。更一般地,你需要用log2(n)位来表示一个可以取n个值的变量

 

KL散度:衡量两个分布之间的距离,可以用来计算代价,不具备对称性。用这个q分布去逼近真实分布p,用logp-logq(logp-logq<0,原因暂且不知道)衡量逼近的程度,这也是针对一个个体,对logp-logq求期望Ex~p(logp)-Ex~p(logq)是总体的KL散度。

交叉熵:概率分布p与q之间的交叉熵是:用总体的信息熵加上总体的KL散度

H(p,q) = E_p[-logq]=H(p)+D_{kl}(p||q)

离散分布p与q的交叉熵是:

H(p,q)= - \sum_{x}p(x)log(q(x))

在大多数情况下,我们需要在不知道分布{\displaystyle p}p的情况下计算其交叉熵。例如在语言模型中, 我们基于训练集T创建了一个语言模型, 而在测试集合上通过其交叉熵来评估该模型的准确率。p是语料中词汇的真实分布,而q是我们获得的语言模型预测的词汇分布。由于真实分布是未知的,我们不能直接计算交叉熵。在这种情况下,我们可以通过下式来估计交叉熵:

{\displaystyle H(T,q)=-\sum _{i=1}^{N}{\frac {1}{N}}\log _{2}q(x_{i})}

N是测试集大小,q(x)是在训练集上估计的事件x发生的概率。我们假设训练集是从p(x)的真实采样,则此方法获得的是真实交叉熵的蒙特卡洛估计。

JS散度:相似度衡量指标。现有两个分布P1和P2,其JS散度公式为:

 

 

Wasserstein距离度量两个概率分布之间的距离,定义如下:

2.凸函数

若这里凸集C即某个区间I,那么就是:设f为定义在区间I上的函数,若对I上的任意两点X1,X2和任意的实数λ∈(0,1),总有

 

f(λx1+(1-λ)x2)≤λf(x1)+(1-λ)f(x2),

 

则f称为I上的凸函数。损失函数只有是凸函数时,梯度下降法才能保证达到全局最优解。

凸集:实数 R (或复数 C 上)向量空间中,集合 S 称为凸集,如果 S 中任两点的连线内的点都在集合 S 内。

3.架构

一旦产生的分工,就把所有的事情,切分成由不同角色的人来完成,最后再通过交易,使得每个个体都拥有生活必须品,而不需要每个个体做所有的事情,只需要每个个体做好自己擅长的事情,并具备一定的交易能力即可。这实际上就形成了社会的架构。

架构实际上就是指人们根据自己对世界的认识,为解决某个问题,主动地、有目的地去识别问题,并进行分解、合并,解决这个问题的实践活动

4.反向传播算法(Backpropagation)是目前用来训练人工神经网络&

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值