用于Multinoulli(多项分布)输出分布的softmax单元

原创 2018年04月16日 17:11:30

单独拿一篇文章出来讲softmax单元是因为昨天去鹅厂面试,被要求给softmax求导,这么简单的事情,我竟然没有做到,所以只好以文铭志了。

话不多说。

任何时候,当我们想要表示一个具有n个可能取值的离散型随机变量的分布时,都可以使用softmax函数。它可以看作sigmoid函数的扩展,sigmoid函数用来表示二值型变量的分布。

softmax函数的形式如下:


当使用最大化对数似然训练softmax来输出目标值y时,使用指数函数工作地非常好。

对softmax函数取对数,之后的结果很容易得到。而且,我们容易观察出,当样本分类正确时,它对于整体训练代价贡献很小,这个代价主要由其他的未本正确分类的样本产生。

对于softmax的情况,它有多个输出值。当输入值之间的差异变得极端时,这些输出值可能饱和。从softmax函数中可以得到。

softmax函数更接近于argmax函数而不是max函数。“soft”这个术语来源于softmax函数是连续可微的。“agemax”函数的结果表示为一个one-hot向量,不是连续可微的。softmax函数因此提供了argmax的“软化版本”。可能最好是把softmax函数称为“softargmax”。

深度学习201709

  • 2017年11月20日 16:41
  • 26.49MB
  • 下载

6.2.2.3softmax输出单元与多项分布

从神经科学的角度来看是很有意思的,我们可以认为softmax函数为输出单元创建了一种竞争模式:由于softmax的输出值之和为1,因此,如果有一个输出单元的值增大了,那么其他所有单元的值都将会受到抑制...
  • kai940325
  • kai940325
  • 2016-09-16 20:41:38
  • 1386

《deep learning》学习笔记(6)——深度前馈网络

6.1 实例:学习 XOR 通过学习一个表示来解决 XOR 问题。图上的粗体数字标明了学得的函数必须在每个点输出的值。(左) 直接应用于原始输入的线性模型不能实现 XOR 函数。当 x 1 = 0 ...
  • u011239443
  • u011239443
  • 2017-10-01 17:29:41
  • 1106

Bengio Deep Learning 初探 —— 第1-4章

初探Deep Learning一书,第一次略读,将原书中的一些重要术语和思想(个人以为的)分章节整理,菜鸡一只,有许多现在还理解不到位的。这里只列出一些定义,作为内容结构的一个简单梳理。      ...
  • qsczse943062710
  • qsczse943062710
  • 2017-03-05 09:59:28
  • 384

Bengio Deep Learning 初探 —— 第6章:前馈神经网络

基于梯度的学习       1)深度前馈网络(deep feedforward network),又名前馈神经网络或多层感知机(multilayer perceptron,MLP),前馈的意思是指在...
  • qsczse943062710
  • qsczse943062710
  • 2017-03-13 08:57:22
  • 2345

Deep Learning学习笔记——概率与信息论

在人工智能领域,概率论主要有两种途径。 概率法则告诉我们AI系统如何推理,据此我们设计一些算法来计算或者估算有概率论导出的表达式。(比如:神经网络的输出是概率的形式)我们可以用概率和统计从理论上...
  • hustqb
  • hustqb
  • 2017-07-22 20:33:36
  • 707

深度学习第三章-概率与信息论笔记

3.1 为什么要使用概率?3.2 随机变量3.3 概率分布3.3.1 离散型变量和概率质量函数 离散型变量的概率分布可以用概率质量函数(probabilit mass function, PMF)描述...
  • Eclipsesy
  • Eclipsesy
  • 2017-08-07 14:59:40
  • 1174

概率论中伯努利分布(bernoulli distribution)介绍及C++11中std::bernoulli_distribution的使用

概率论中伯努利分布(bernoulli distribution)介绍及C++11中std::bernoulli_distribution的使用...
  • fengbingchun
  • fengbingchun
  • 2017-06-25 13:29:58
  • 2572

二项分布和多项分布

二项分布: 做n
  • shuimu12345678
  • shuimu12345678
  • 2014-06-14 19:34:21
  • 16074

概率与信息论基础

1.前言几乎所有的活动都需要能够在不确定性存在时进行推理,除了数学的定理外,很难确定某个命题是真的。 不确定性有三种可能: 1.被建模系统内在的随机性。亚原子粒子的动力学描述为概率性的。 2.不...
  • Hansry
  • Hansry
  • 2017-09-02 12:56:42
  • 1924
收藏助手
不良信息举报
您举报文章:用于Multinoulli(多项分布)输出分布的softmax单元
举报原因:
原因补充:

(最多只允许输入30个字)