softmax实现多分类算法推导及代码实现

最新推荐文章于 2024-07-24 17:01:51 发布

生活不只*眼前的苟且

最新推荐文章于 2024-07-24 17:01:51 发布

阅读量1w

点赞数 5

分类专栏：机器学习

机器学习专栏收录该内容

66 篇文章 23 订阅

订阅专栏

关于多分类

我们常见的逻辑回归、SVM等常用于解决二分类问题，对于多分类问题，比如识别手写数字，它就需要10个分类，同样也可以用逻辑回归或SVM，只是需要多个二分类来组成多分类，但这里讨论另外一种方式来解决多分类——softmax。

关于softmax

如何多分类

从下图看，神经网络中包含了输入层，然后通过两个特征层处理，最后通过softmax分析器就能得到不同条件下的概率，这里需要分成三个类别，最终会得到y=0、y=1、y=2的概率值。

这里写图片描述

继续看下面的图，三个输入通过softmax后得到一个数组[0.05 , 0.10 , 0.85]，这就是soft的功能。

这里写图片描述

代价函数

使用场景

在多分类场景中可以用softmax也可以用多个二分类器组合成多分类，比如多个逻辑分类器或SVM分类器等等。该使用softmax还是组合分类器，主要看分类的类别是否互斥，如果互斥则用softmax，如果不是互斥的则使用组合分类器。

下面是使用tensorflow构建softmax分类器的代码：

# -*- coding: UTF-8 -*-
#!/usr/bin/python
 
 
#从网上download到minist相关的数据以及处理函数
import input_data
mnist = input_data.read_data_sets("/tmp/data/", one_hot=True)
 
import tensorflow as tf
 
#a classifier with only softmax layer
 
#x是一个N * 784的矩阵，784指的是28 * 28 的图片拉伸为一行
#N为批数，由用户在运行时指定。
#x存放的是每一批的训练数据，是不断变更的，因此需要用到tf中的feed方法，因此在这里只用占位符
#None指的是这个维度的值是任意的，在这里是输入的batch的大小是任意的
x = tf.placeholder(tf.float32, [None, 784])
 
#用于存放真实标签
y_ = tf.placeholder("float", [None,10])
 
#variable是tensorflow中可以被修改的变量
W = tf.Variable(tf.zeros([784,10]))
b = tf.Variable(tf.zeros([10]))
 
#一行代码实现softmax的前向传播，y是预测输出
y = tf.nn.softmax(tf.matmul(x,W) + b)
 
#训练模型，这里用的是交叉熵，交叉熵被认为是比较好的loss function
#reduce_sum是求张量所有元素总和的求和函数。log(y)和*（这里是点乘）都是逐个元素进行的
#从这里也可以看出tensorflow中的loss function 是需要自己定义的
cross_entropy = -tf.reduce_sum(y_*tf.log(y))
 
#用梯度下降法优化交叉熵
#其他优化算法也是一行代码，详情查阅文档，0.01指的是学习率
train_step = tf.train.GradientDescentOptimizer(0.01).minimize(cross_entropy)
 
#启动session，初始化变量，这里的图用的是默认图
init = tf.initialize_all_variables()
sess = tf.Session()
sess.run(init)
 
#训练模型
for i in range(1000):
  batch_xs, batch_ys = mnist.train.next_batch(100)
  sess.run(train_step, feed_dict={x: batch_xs, y_: batch_ys})
 
#测试并输出准确率
#tf.argmax 能给出某个tensor对象在某一维上的其数据最大值所在的索引值。由于标签向量是由0,1组成，因此最大值#1所在的索引位置就是类别标签，比如tf.argmax(y,1)返回的是模型对于任一输入x预测到的标签值，
#而 tf.argmax(y_,1) 代表正确的标签，我们可以用 tf.equal 来检测我们的预测是否真实标签匹配(索引位置一样表#示匹配)。
#y的维度可选值是[0, 1]
correct_prediction = tf.equal(tf.argmax(y,1), tf.argmax(y_,1))
 
#上行代码会给我们一组布尔值。为了确定正确预测项的比例，我们可以把布尔值转换成浮点数，然后取平均值。例如，#[True, False, True, True] 会变成 [1,0,1,1] ，取平均值（reduce_mean）后得到 0.75.
accuracy = tf.reduce_mean(tf.cast(correct_prediction, "float"))
 
#将预测集输入并输出准确率
print sess.run(accuracy, feed_dict={x: mnist.test.images, y_: mnist.test.labels})
 
#总结：placeholder用于存放外部输入的tensor，variable用于存放内部自己变化的tensor