错误地认为不合理的理由是:把8识别成6和把8识别成7的代价应该不一样,因为8和6更相似。所以8识别成7说明网络识别的不好,代价更大。
这种理解是错误滴!!!!
因为网络的输出是一个连续值,而不是离散的0或1.网络的输出有10个神经元(分别代表0-9),每一个神经元都有一个激活值(该值是连续值)。只有在测试网络性能的时候,我们把十个值拿出来比较一下,激活值最大的是分类类别(比如第二个神经元激活值最大,则识别结果是“1”。为什么是1不是2?因为下标从数字0开始的!)。
所以最初的问题:把8识别成6的损失究竟是神马?是十个神经元 实际与预测差的二范数的平方(||y-a||的平方)。
注:向量二范数是向量中各元素的平方求和再开根号。