softmax回归

最新推荐文章于 2024-11-12 09:09:03 发布

du_mengnan

最新推荐文章于 2024-11-12 09:09:03 发布

阅读量1k

点赞数 1

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/u012526120/article/details/49048653

版权

机器学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

softmax回归是用于多分类问题的模型，从logistic回归扩展而来。它提供了一个k维输出向量，表示每个类别的概率，并确保总和为1。模型训练中，目标函数包含权重衰减项，通过L-BFGS算法求解全局最优解。

摘要由CSDN通过智能技术生成

1. 模型简介

给定数据集为 $\left\{ {\left( {{x^{(1)}},{y^{(1)}}} \right),...,\left( {{x^{(m)}},{y^{(m)}}} \right)} \right\},{y^{(i)}} \in \left\{ {0,1} \right\}$ 的二分类问题，可以使用logistic回归来解决，其模型输出为：

h θ (x) = 1 1 + e - θ T x

${h_\theta }(x) = \frac{1}{{1 + {e^{ - {\theta ^T}x}}}}$

而通常情况下，我们要解决的问题不止两个类别，可能包含多个类别，比如MNIST手写数字分类问题，包含十个类别。对于这样的多分类问题，可以将logistic回归拓展到softmax回归来解决。

具体地，我们有数据集为 $\left\{ {\left( {{x^{(1)}},{y^{(1)}}} \right),...,\left( {{x^{(m)}},{y^{(m)}}} \right)} \right\},{y^{(i)}} \in \left\{ {1,2,...k} \right\}$ 。给定测试数据 $x$ ，我们想用假设函数给出对于每个类别的概率值： $p(y_i=j|x)$ 。对于 $k$ 分类来说，我们希望假设函数输出 $k$ 维的特征向量，每个维度表示输入该类的概率，且 $k$ 个维度的和为1。

假设函数的形式如下：

h θ (x) = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ p (y = 1 | x, θ) p (y = 2 | x, θ) ⋮ p (y = k | x, θ) ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ = 1 \sum k j = 1 e θ T j x ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ e θ T 1 x e θ T 2 x ⋮ e θ T k x ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

${h_\theta }\left( x \right) = \left[ {\begin{array}{*{20}{c}} {p(y = 1|x,\theta )}\\ {p(y = 2|x,\theta )}\\ \vdots \\ {p(y = k|x,\theta )} \end{array}} \right] = \frac{1}{{\sum\nolimits_{j = 1}^k {{e^{\theta _j^Tx}}} }}\left[ {\begin{array}{*{20}{c}} {{e^{\theta _1^Tx}}}\\ {{e^{\theta _2^Tx}}}\\ \vdots \\ {{e^{\theta _k^Tx}}} \end{array}} \right]$

假设函数的全部参数用 $\theta$ 来表示，其为一个 $k*n$ 大小的矩阵，如下所示：

θ = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ θ T 1 θ T 2 ⋮ θ T k ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥

$\theta = \left[ {\begin{array}{*{20}{c}} {\theta _1^T}\\ {\theta _2^T}\\ \vdots \\ {\theta _k^T} \end{array}} \right]$

2. 模型训练

模型包含权重衰减项的目标函数为：

J (θ) = - 1 m [\sum m i = 1 \sum k j = 1 1 {y (i) = j} l o g e θ T j x ( i ) \sum k l = 1 e θ T l x ( i )] + λ 2 \sum k i = 1 \sum n j = 1 θ 2 i j

$J(\theta ) = - \frac{1}{m}\left[ {\sum\nolimits_{i = 1}^m {\sum\nolimits_{j = 1}^k {1\{ {y^{(i)}} = j\} log\frac{{{e^{\theta _j^T{x^{(i)}}}}}}{{\sum\nolimits_{l = 1}^k {{e^{\theta _l^T{x^{(i)}}}}} }}} } } \right] + \frac{\lambda }{2}\sum\nolimits_{i = 1}^k {\sum\nolimits_{j = 1}^n {\theta _{ij}^2} }$

可以证明，在包含权重衰减项后，目标函数变为凸函数，Hessian矩阵是可逆的，使用L-BFGS算法可以收敛到全局最优解。目标函数的梯度为：

\nabla θ j J (θ) = - 1 m \sum m i = 1 [x (i) * (1 {y (i) = j} - p (y (i) = j | x (i); θ))] + λ θ j

${\nabla _{{\theta _j}}}J(\theta ) = - \frac{1}{m}\sum\nolimits_{i = 1}^m {[{x^{(i)}}*(1\{ {y^{(i)}} = j\} - p({y^{(i)}} = j|{x^{(i)}};\theta ))]} + \lambda {\theta _j}$

以参数 $\theta$ 为自变量，求解目标函数值及目标函数梯度的matlab代码为：

function [cost, grad] = softmaxCost(theta, numClasses, inputSize, lambda, data, labels)
% numClasses - the number of classes 
% inputSize - the size N of the input vector
% lambda - weight decay parameter
% data - the N x M input matrix, where each column data corresponds to a single test set
% labels - an M x 1 matrix containing the labels corresponding for the input data

% Unroll the parameters from theta
theta = reshape(theta, numClasses, inputSize);
numCases = size(data, 2);
groundTruth = full(sparse(labels, 1:numCases, 1));

%  Compute the cost and gradient for softmax regression.
M = theta*data;
M = bsxfun(@minus, M, max(M, [], 1));
M = exp(M);
p = bsxfun(@rdivide, M, sum(M));
thetagrad = -(1./numCases)*(groundTruth-p)*data' + lambda*theta;
cost = -(1./numCases)*sum(sum(groundTruth.*log(p))) + lambda/2.0*sum(sum(theta.^2));

% Unroll the gradient matrices into a vector for minFunc
grad = [thetagrad(:)];
end

有了计算目标函数值及梯度的function后，可以使用L-BFGS优化算法，得到最优的参数值，代码如下：

% initialize parameters
theta = 0.005 * randn(numClasses * inputSize, 1);

% Use minFunc to minimize the function
addpath minFunc/
options.Method = 'lbfgs'; 
minFuncOptions.display = 'on';
[softmaxOptTheta, cost] = minFunc( @(p) softmaxCost(p, ...
                                   numClasses, inputSize, lambda, ...
                                   inputData, labels), ...                                   
                                   theta, options);

% Fold softmaxOptTheta into a nicer format
softmaxModel.optTheta = reshape(softmaxOptTheta, numClasses, inputSize);

对于测试数据，使用得到的优化参数，可以预测其类别，代码为：

theta = softmaxModel.optTheta;  % this provides a numClasses x inputSize matrix
pred = zeros(1, size(data, 2));
M = theta*data;
M = bsxfun(@minus, M, max(M, [], 1));
M = exp(M);
M = bsxfun(@rdivide, M, sum(M));
[p, pred] = max(M, [], 1);