Deep Learning 学习随记（三）Softmax regression

最新推荐文章于 2021-09-22 10:44:42 发布

MemRay

最新推荐文章于 2021-09-22 10:44:42 发布

阅读量2.7k

点赞数

分类专栏： Deep Learning 机器学习

机器学习同时被 2 个专栏收录

74 篇文章 0 订阅

订阅专栏

Deep Learning

43 篇文章 2 订阅

订阅专栏

转载自：http://www.cnblogs.com/bzjia-blog/p/3366780.html

关于Softmax回归，这个wiki也有详细的讲解。http://ufldl.stanford.edu/wiki/index.php/Softmax%E5%9B%9E%E5%BD%92

讲义中的第四章，讲的是Softmax 回归。softmax回归是logistic回归的泛化版，先来回顾下logistic回归。

logistic回归：

训练集为{(x⁽¹⁾,y⁽¹⁾),...,(x^(m),y^(m))}，其中m为样本数，x⁽ⁱ⁾为特征。

logistic回归是针对二分类问题的，因此类标y⁽ⁱ⁾∈{0,1}，。其估值函数（hypothesis ）如下：

代价函数：

$\begin{align}J(\theta) &= -\frac{1}{m} \left[ \sum_{i=1}^m (1-y^{(i)}) \log (1-h_\theta(x^{(i)})) + y^{(i)} \log h_\theta(x^{(i)}) \right] \\&= - \frac{1}{m} \left[ \sum_{i=1}^{m} \sum_{j=0}^{1} 1\left\{y^{(i)} = j\right\} \log p(y^{(i)} = j | x^{(i)} ; \theta) \right]\end{align}$

举个例子来理解，对于yi=1的实例，前半部分由于1-yi=0直接忽略，所以直接看后半部分yi*log[h(xi)]。

h(xi)∈(0,1]

log[h(xi)]∈(-∞,0]

因此对于第i个训练实例yi=1，我们的回归函数h(xi)的计算结果越接近于1（与训练数据一致）则给予的代价惩罚越小（趋近于0）。相反如果真实数据yi为1，h(xi)却认为等于0，说明参数θ不对，对应的惩罚就很大。yi=0的理解也完全一致，代价函数就是加大惩罚错例。在下面的多类代价函数也是一样的道理。

softmax 回归：

softmax回归解决的是多分类问题，即y⁽ⁱ⁾∈{1,2,...,k}。（这里softmax回归一般从类别1开始，而不是从0）。

其估值函数形式如下：

为了方便起见，我们同样使用符号θ来表示全部的模型参数。在实现softmax回归时，你通常会发现，将θ用一个k×(n+1)的矩阵来表示会十分便利，该矩阵是将θ_1,θ_2,...,θ_k按行罗列起来得到的，如下所示：

下面是softmax回归的代价函数：

可以看出softmax是logistic的一个泛化版。logistic是k=2情况下的softmax回归。

为了求解J(θ)，通常借助于梯度下降法或L-BFGS算法等迭代优化算法。经过求导，我们可以得到梯度公式为：

有了上面的偏导数公式以后，我们就可以将它带入到梯度下降法等算法中，来使J(θ)最小化。例如，在梯度下降法标准实现的每一次迭代中，我们需要进行如下更新：

（对每个j=1,2,...k）

有一点需要注意的是，按上述方法用softmax求得的参数并不是唯一的，因为，对每一个参数来说，若都减去一个相同的值，依然是上述的代价函数的值。证明如下：

这表明了softmax回归中的参数是“冗余”的。更正式一点来说，我们的softmax模型被过度参数化了，这意味着对于任何我们用来与数据相拟合的估计值，都会存在多组参数集，它们能够生成完全相同的估值函数hθ将输入x映射到预测值。因此使J(θ)最小化的解不是唯一的。而Hessian矩阵是奇异的/不可逆的，这会直接导致Softmax的牛顿法实现版本出现数值计算的问题。

为了解决这个问题，加入一个权重衰减项到代价函数中：