DeepLearning tutorial（1）Softmax回归原理简介+代码详解

最新推荐文章于 2024-04-09 19:30:33 发布

每一天都可怜

最新推荐文章于 2024-04-09 19:30:33 发布

阅读量123

点赞数

本文链接：https://blog.csdn.net/qq_44894516/article/details/89784795

版权

本文详细介绍了Softmax回归算法，并通过Python的Theano库提供了代码解读，具体包括模型定义、MNIST数据集加载及应用。

摘要由CSDN通过智能技术生成

DeepLearning tutorial（1）Softmax回归原理简介+代码详解

@author：wepon

@blog：http://blog.csdn.net/u012162613/article/details/43157801

本文介绍Softmax回归算法，特别是详细解读其代码实现，基于python theano，代码来自：Classifying MNIST digits using Logistic Regression，参考UFLDL。

一、Softmax回归简介

关于算法的详细教程本文没必要多说，可以参考UFLDL。下面只简单地总结一下，以便更好地理解代码。

Softmax回归其实就相当于多类别情况下的逻辑回归，对比如下：

逻辑回归的假设函数（hypothesis）：

整个逻辑回归模型的参数就是theta，h(*)是sigmoid函数，输出在0～1之间，一般作为二分类算法。对于具体的问题，找出最合适的theta便是最重要的步骤，这是最优化问题，一般通过定义代价函数，然后最小化代价函数来求解，逻辑回归的代价函数为：

最小化J(theta)，一般采用梯度下降算法，迭代计算梯度并更新theta。

Softmax的假设函数：

逻辑回归里将-theta*x作为sigmoid函数的输入，得到的是0或者1，两个类别。而softmax有有k个类别，并且将-theta*x作为指数的系数，所以就有e^(-theta_1*x)至e^( -theta_k*x)共k项，然后除以它们的累加和，这样做就实现了归一化，使得输出的k个数的和为1，而每一个数就代表那个类别出现的概率。因此：softmax的假设函数输出的是一个k维列向量，每一个维度的数就代表那个类别出现的概率。

Softmax的代价函数：

本质上跟逻辑回归是一样的，采用NLL，如果加上权重衰减项（正则化项），则为：

最小化代价函数，同样可以采用简单而有效的梯度下降，需要提到的是，在程序实现中，我们一般采用批量随机梯度下降，即MSGD，minibatch Stochastic Gradient Descent，简单来说，就是每遍历完一个batch的样本才计算梯度和更新参数，一个batch一般有几十到几百的单个样本。PS：随机梯度下降则是一个样本更新一次。

二、Softmax代码详细解读

首先说明一点，下面的程序采用的是MSGD算法，代价函数是不带权重衰减项的，整个程序实现用Softmax回归来classfy MINST数据集（识别手写数字0～9）。代码解读是个人理解，仅供参考，不一定正确，如有错误请不吝指出。

原始代码和经过我注释的代码:github地址

参数说明：上面第一部分我们的参数用theta表示，在下面的程序中，用的是W，权重，这两者是一样的。还有一点需要注意，上面的假设函数中是-theta*x，而在程序中，用的是W*X+b，本质也是一样的，因为可以将b看成W0，增加一个x0=1，则W*X+b=WX=-theta*x。

（1）导入一些必要的模块

import cPickleimport gzipimport osimport sysimport timeimport numpyimport theanoimport theano.tensor as T

（2）定义Softmax回归模型

在deeplearning tutorial中，直接将LogisticRegression视为Softmax，而我们所认识的二类别的逻辑回归就是当n_out=2时的LogisticRegression，因此下面代码定义的LogisticRegression就是Softmax。

代码解读见注释：

#参数说明：#input，输入的一个batch，假设一个batch有n个样本(n_example)&#x

最低0.47元/天解锁文章

每一天都可怜

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫