softmax实现多分类算法推导及代码实现

关于多分类

我们常见的逻辑回归、SVM等常用于解决二分类问题,对于多分类问题,比如识别手写数字,它就需要10个分类,同样也可以用逻辑回归或SVM,只是需要多个二分类来组成多分类,但这里讨论另外一种方式来解决多分类——softmax。

关于softmax


如何多分类

从下图看,神经网络中包含了输入层,然后通过两个特征层处理,最后通过softmax分析器就能得到不同条件下的概率,这里需要分成三个类别,最终会得到y=0、y=1、y=2的概率值。

这里写图片描述

继续看下面的图,三个输入通过softmax后得到一个数组[0.05 , 0.10 , 0.85],这就是soft的功能。

这里写图片描述


这里写图片描述

代价函数


使用场景

在多分类场景中可以用softmax也可以用多个二分类器组合成多分类,比如多个逻辑分类器或SVM分类器等等。该使用softmax还是组合分类器,主要看分类的类别是否互斥,如果互斥则用softmax,如果不是互斥的则使用组合分类器。

下面是使用tensorflow构建softmax分类器的代码:

# -*- coding: UTF-8 -*-
#!/usr/bin/python
 
 
#从网上download到minist相关的数据以及处理函数
import input_data
mnist = input_data.read_data_sets("/tmp/data/", one_hot=True)
 
import tensorflow as tf
 
#a classifier with only softmax layer
 
#x是一个N * 784的矩阵,784指的是28 * 28 的图片拉伸为一行
#N为批数,由用户在运行时指定。
#x存放的是每一批的训练数据,是不断变更的,因此需要用到tf中的feed方法,因此在这里只用占位符
#None指的是这个维度的值是任意的,在这里是输入的batch的大小是任意的
x = tf.placeholder(tf.float32, [None, 784])
 
#用于存放真实标签
y_ = tf.placeholder("float", [None,10])
 
#variable是tensorflow中可以被修改的变量
W = tf.Variable(tf.zeros([784,10]))
b = tf.Variable(tf.zeros([10]))
 
#一行代码实现softmax的前向传播,y是预测输出
y = tf.nn.softmax(tf.matmul(x,W) + b)
 
#训练模型,这里用的是交叉熵,交叉熵被认为是比较好的loss function
#reduce_sum是求张量所有元素总和的求和函数。log(y)和*(这里是点乘)都是逐个元素进行的
#从这里也可以看出tensorflow中的loss function 是需要自己定义的
cross_entropy = -tf.reduce_sum(y_*tf.log(y))
 
#用梯度下降法优化交叉熵
#其他优化算法也是一行代码,详情查阅文档,0.01指的是学习率
train_step = tf.train.GradientDescentOptimizer(0.01).minimize(cross_entropy)
 
#启动session,初始化变量,这里的图用的是默认图
init = tf.initialize_all_variables()
sess = tf.Session()
sess.run(init)
 
#训练模型
for i in range(1000):
  batch_xs, batch_ys = mnist.train.next_batch(100)
  sess.run(train_step, feed_dict={x: batch_xs, y_: batch_ys})
 
#测试并输出准确率
#tf.argmax 能给出某个tensor对象在某一维上的其数据最大值所在的索引值。由于标签向量是由0,1组成,因此最大值#1所在的索引位置就是类别标签,比如tf.argmax(y,1)返回的是模型对于任一输入x预测到的标签值,
#而 tf.argmax(y_,1) 代表正确的标签,我们可以用 tf.equal 来检测我们的预测是否真实标签匹配(索引位置一样表#示匹配)。
#y的维度可选值是[0, 1]
correct_prediction = tf.equal(tf.argmax(y,1), tf.argmax(y_,1))
 
#上行代码会给我们一组布尔值。为了确定正确预测项的比例,我们可以把布尔值转换成浮点数,然后取平均值。例如,#[True, False, True, True] 会变成 [1,0,1,1] ,取平均值(reduce_mean)后得到 0.75.
accuracy = tf.reduce_mean(tf.cast(correct_prediction, "float"))
 
#将预测集输入并输出准确率
print sess.run(accuracy, feed_dict={x: mnist.test.images, y_: mnist.test.labels})
 
#总结:placeholder用于存放外部输入的tensor,variable用于存放内部自己变化的tensor


评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值