神经网络数学基础
文章平均质量分 55
_寒潭雁影
中科大IT向博士,熟悉MFC,C++,C等语言,参与过ffmpeg、机器视觉、并行计算、数据库等相关项目的研发和代码的编写http://blog.csdn.net/weixinhum为本人博客,上面记录了本人的一些技术总结
展开
-
香农信息量
如果是连续型随机变量的情况,设ppp为随机变量XXX的概率分布,即p(x)p(x)p(x)为随机变量XXX在X=xX=xX=x处的概率密度函数值,则随机变量XXX在X=xX=xX=x处的香农信息量定义为:−log2p(x)=log21p(x)-log_2p(x)=log_2\frac{1}{p(x)}−log2p(x)=log2p(x)1这时香农信息量的单位为比特。(如果非连续型随机变量,...原创 2018-12-18 08:40:07 · 7667 阅读 · 0 评论 -
共轭函数
共轭函数在最近火的不行的Gan生成对抗神经网络进阶版本的数学推理中有着神奇的作用,因此在这边记录下。共轭函数的定义为:f∗(t)=maxx∈dom(f){xt−f(x)}f ^ { * } ( t ) = \max _ { x \in \operatorname { dom } ( f ) } \{ x t - f ( x ) \}f∗(t)=x∈dom(f)max{xt−f(x)}...原创 2019-01-08 16:38:28 · 35738 阅读 · 13 评论 -
琴生(jensen)不等式
在Gan生成对抗神经网络中会用到Jensen不等式,因此做下记录。Jensen不等式告诉我们:如果fff是在区间[a,b][a,b][a,b]上的凸函数(就是导数一直增长的函数,或者说是导数的导数大于0的函数),xxx是随机变量,那么有:E(f(x))≥f(E(x))E(f(x))≥f(E(x))E(f(x))≥f(E(x))也就是说函数fff的期望大于等于期望的函数。下面来看看怎么证...原创 2019-01-02 23:35:09 · 3613 阅读 · 0 评论 -
GAN生成对抗式神经网络数学推导
由上面一篇文章我们已经知道了,如果我们从真实数据分布里面取n个样本,根据给定样本我们可以列出其出现概率的表达式,那么生成这N个样本数据的似然(likelihood)就是l(θ)=∏i=1Np(xi∣θ)l ( \theta )= \prod _ { i = 1 } ^ { N } p \left( x _ { i } | \theta \right)l(θ)=i=1∏Np(xi∣θ)我...原创 2018-12-24 17:46:58 · 3522 阅读 · 7 评论 -
极大似然估计(MLE)
上一篇文章我们已经了解了似然函数是什么,但怎么去把里面的θθθ给求出来是个更加关键的问题。这篇我们将来探讨下这个问题。还是先举一个例子,假设有一个造币厂生产某种硬币,现在我们拿到了一枚这种硬币,想试试这硬币是不是均匀的。即想知道抛这枚硬币,正反面出现的概率(记为θθθ)各是多少?这是一个统计问题,回想一下,解决统计问题需要什么? 数据!于是我们拿这枚硬币抛了10次,得到的数据x0x_0x0...原创 2018-12-18 22:10:01 · 3143 阅读 · 0 评论 -
似然函数
似然(likelihood)这个词其实和概率(probability)是差不多的意思,但是在统计里面,似然函数和概率函数却是两个不同的概念。对于函数:P(x∣θ)P ( x | \theta )P(x∣θ),输入有两个:xxx表示某一个具体的数据;θθθ表示模型的参数。如果θθθ是确定的,xxx是变量,这个函数叫做概率函数(probability function),它描述对于不同的样本点xx...原创 2018-12-18 21:12:42 · 3169 阅读 · 1 评论 -
JS散度
前面我们介绍了相对熵(KL散度)的概念,知道了它可以用来表示两个概率分布之间的差异,但有个不大好的地方是它并不是对称的,因此有时用它来训练神经网络会有顺序不同造成不一样的训练结果的情况(其实个人觉得也就是训练时间差异罢了,也没那么严重)。为了克服这个问题,有人就提出了一个新的衡量公式,叫做JSJSJS散度,式子如下:JS(P1∥P2)=12KL(P1∥P1+P22)+12KL(P2∥P1+P22...原创 2018-12-23 22:54:10 · 16383 阅读 · 7 评论 -
交叉熵
上一篇文章我们简单介绍了相对熵的概念,知道了相对熵可以用来表达真实事件和理论拟合出来的事件之间的差异。相对熵的公式如下:DKL(p∥q)=∑i=1Np(xi)logp(xi)−∑i=1Np(xi)logq(xi)D _ { K L } ( p \| q ) = \sum _ { i = 1 } ^ { N }p \left( x _ { i } \right)\log p \left( ...原创 2018-12-18 14:54:51 · 584 阅读 · 0 评论 -
相对熵(KL散度)
上一篇文章我们简单介绍了信息熵的概念,知道了信息熵可以表达数据的信息量大小,是信息处理一个非常重要的概念。对于离散型随机变量,信息熵公式如下:H(p)=H(X)=Ex∼p(x)[−logp(x)]=−∑i=1np(x)logp(x)H ( p ) = H ( X ) = \mathrm { E } _ { x \sim p ( x ) } [ - \log p ( x ) ] = -\s...原创 2018-12-18 14:33:55 · 85053 阅读 · 22 评论 -
信息熵
上一篇文章我们简单介绍了香农信息量的概念,由香农信息量我们可以知道对于一个已知概率的事件,我们需要多少的数据量能完整地把它表达清楚,不与外界产生歧义。但对于整个系统而言,其实我们更加关心的是表达系统整体所需要的信息量。比如我们上面举例的aaBaaaVaaaaaaaBaaaVaaaaaaaBaaaVaaaaa这段字母,虽然BBB和VVV的香农信息量比较大,但他们出现的次数明显要比aaa少很多,因此我...原创 2018-12-18 09:09:49 · 5887 阅读 · 2 评论 -
f-gan生成对抗神经网络进阶第一级
在之前我们做始祖Gan的数学推导的时候,其实留下了一堆坑(不知道你注意到了没有哈哈)。当然,牛逼的人就是这样的,指明了一条光明大道,让人知道从哪里走,然后剩下的一些坑坑洼洼刚刚好就能帮助一些博士、硕士毕业或者一些人评副教授、教授啥的。这篇文章介绍的f-gan就是填的其中一个坑,那就是给V(G,D)V(G,D)V(G,D)这个函数一个更加通用的描述。在始祖文章里面,这个函数是直接写出来的,虽然知道...原创 2019-02-04 01:11:04 · 1293 阅读 · 0 评论