交叉熵损失函数的的思维:也就是在softmax函数输出的概率的分布的向量上,如果不是以接近于1的概率去判别一个label,这就是一种损失。
在上面的例子中,我们明显可以注意到模型二基本上都在大概率上判别一个label所以引起的损失会小一点,在这里要注意到log函数的特征,在x很靠近1位置的时候,-log(x)比较接近于0,而当x越接近0的位置的时候,反而-log(x)会变大,也就是说概率值越小的x对应的-log(x)会越大
交叉熵损失函数的的思维:也就是在softmax函数输出的概率的分布的向量上,如果不是以接近于1的概率去判别一个label,这就是一种损失。
在上面的例子中,我们明显可以注意到模型二基本上都在大概率上判别一个label所以引起的损失会小一点,在这里要注意到log函数的特征,在x很靠近1位置的时候,-log(x)比较接近于0,而当x越接近0的位置的时候,反而-log(x)会变大,也就是说概率值越小的x对应的-log(x)会越大