在MNIST训练数据集中,mnist.train.images是一个形状为[60000,784]的张量,第一个维度数字用来索引图
片,第二个维度数字用来索引每张图片中的像素点。再次张量里的每一个元素,都表示某张图片里的某个像素
的强度值,值介于0和1之间。
相对应的MNIST数据集的标签是介于0到9的数字,用来描述给定图片里表示的数字。为了应用到本次学习中,
我们使标签数据是“one-hot vectors”。一个one-hot向量除了某一位数字是1以外其余各维度数字都是0.所
以在本次学习中,数字n将表示成一个只有在第n维度(从0开始)数字1的10维向量。比如,标签0将表示成
([1,0,0,0,0,0,0,0,0,0])。因此,mnist.train.labels是一个[60000,10]的数字矩阵。
Softmax介绍:
我们知道MNIST的每一张图片都表示一个数字,从0到9。我们希望得到给定图片代表每个数字的概率。比如说,
我们的模型可能推测一张包含包含图片代表数字9的概率是80%但是判断他是8的概率是5%(因为8和9都有上半
部分的小圆),然后给予它代表其他数字的概率更小的值。这是一个使用softmax回归(softmax regression)
模型的经典案例。softmax模型可以用来给不同的对象分配概率。及时在之后,我们训练更加精细的模型,最后
与需要用softmax来分配概率。
softmax回归分两步:第一步
为了得到一张给定图片属于某个特定数字类的证据(evidence),我们对图片像素值进行加权求和。如果这个像
素具有很强的证据说明这张图片不属于该类,那么相应的权值为负数,相反如果这个像素拥有有力的证据支持这
张图片属于这个类,那么权重为证书。
下面的图片显示了一个模型学习到的图片上每个像素对于特定数字类的权值。红色代表负数权值,蓝色代表正数权值
我们也可以加入一个额外的偏置量(bias),因为输入往往会带有一些无关的干扰量。因此对于给定的输入图片
x它代表的是数字i的证据可以表示为:
其中Wi代表权重bi代表数字i类的偏置量,j代表给定图片x的像素索引用于像素求和。然后用softmax函数可以把
这些证据转换成概率y:
这里的softmax可以看成是一个激励函数(activation function)或者链接(link)函数,把我们定义的线性函
数的输出转换成我们想要的格式,也就是关于10个数字类的概率分布。因此,给定一张图片,他对于每一个数
字的温和对可以被softmax函数转换成为一个概率值。softmax函数可以定义为:
展开等式右边的子式,可以得到:
但是更多的时候把softmax模型函数定义为前一种形势:把输入值当成幂指数求值,在正则化这些结果值。这个
幂运算表示更大的证据对应更大的假设模型(hypothesis)里面的成熟权重值。反之,拥有更少的证据意味着在
假设模型里面拥有更小的乘数洗漱。假设模型里的全是不可以是0或者负值。Softmax然后会正则化这些权重值,
使他们综合等于1,一构造一个有效的概率分布。
对于softmax回归模型可以用下面的图解释,对于xs加权求和,再分别加上一个偏置量,最后再输入到softmax函
数中:
如果把它写成一个灯饰我们可以得到:
我们也可以用向量表示这个计算过程:用矩阵乘法和向量相加。这有助于提高计算效率。(也是一种更有效的思考
方式)
更进一步,可以写成更加紧凑的方式: