当你第一次看到Logistic Regression 或 Softmax时,有没有想过,这两个函数是从哪里来的,为啥长成这个样子,自然常数e是从哪里来的?
深度信念网络(DBN)A Fast Learning Algorithm for Deep Belief Nets 是深度学习的开山之作,Hinton老爷子2006年证明了DBN比最好的判别式模型(Discriminative Methods)在MNIST上的表现还要好,原因是DBN学习到了图像的合理表达,可解释性也更好,这也是深度学习的核心价值。目前自监督学习、无监督学习和模型的可解释性等方向的研究,并没有离开15年前Hinton的研究范围。
除了DBN,玻尔兹曼机(Boltzmann Machine),受限的玻尔兹曼机(RBM),深度玻尔兹曼机(DBM)都与玻尔兹曼分布关系密切。将另写一篇文章说明它们之间的关系,本文重点推导玻尔兹曼分布和展示softmax的由来,帮助理解概率分布与能量和温度的关系。
1868年,玻尔兹曼在其奠基性统计力学有关玻尔兹曼分布的论文中提出了Softmax函数[1],1902年,Gibbs在其颇有影响力的教科书《统计力学基础原理》中对Softmax进行了形式化和推广[2]。
玻尔兹曼分布定义了位于不同能量级(状态)的粒子数量的概率分布,该分布希望:在总能量和总粒子数量不变的前提下,能量级状态数量
热力学第二定律告诉我们系统的混乱度总是增加的,也就是趋向于各个不同的能量级状态都有粒子分布。
约束条件:
- 总粒子数量为
,,表示处于能量级状态