pytorch中编写代码实现Logsoftmax

oceanttk

已于 2022-11-23 16:22:03 修改

阅读量1k

点赞数 2

文章标签： python 人工智能深度学习

于 2022-11-23 11:13:54 首次发布

本文链接：https://blog.csdn.net/qq_45952183/article/details/127996238

版权

在分类任务中我们常常会用到交叉熵来计算loss，交叉熵在torch官方文件中其实是由两部分组成的也就是LogSoftmax+NLLLOSS。这也是为什么我们可以直接将FC层的值输入进交叉熵损失函数，label也不用处理成one-hot的形式。

那么对于交叉熵第一步LogSoftmax公式如下：

$logsoftmax=log\left ( \tfrac{^{e^{x_{i}}}}{\sum e^^{x}{}} \right )$

根据公式好像看起来就是把softmax的结果求ln好像很简单，但其实这样是错误的！

但在网络的实际训练中log会出现下溢的问题（log 0，nan），而exp则会出现上溢的问题（指数爆炸）。所以尽管理论上是对softmax取对数，但实操中我们需要对公式变形。

当xi（ $^{x_{i}}$ 是tensor中的各个元素）为正数的时候，xi-M（M是tensor中最大的值）都不会出现大于0的数字，这样就不会出现指数爆炸的情况了所以上溢出问题就解决了；当xi-M都是很大的负值，但是一定有一个xi-M==0，这样就保证等价log(x),其中x>1并且不是一个很大的数字(如果x接近0，那么log(x)就是接近负无穷大，就会出了溢出问题)，这样就解决了下溢出（nan）的问题，但其实我发现还是有log 0所以我们就在做log前+一个很小的数字这样就能够彻底解决下溢出问题了。

最后是实现代码。

def log_softmax(X):
    max = torch.max(X)
    X = X - max
    X_exp = torch.exp(X)
    partition = X_exp.sum(dim=1, keepdim=True)
    return X - torch.log(partition + 10e-6)