1、sigmoid将一个real value映射到(0,1)的区间(当然也可以是(-1,1)),这样可以用来做二分类。
2、softmax把一个k维的real value向量(a1,a2,a3,a4….)映射成一个(b1,b2,b3,b4….)其中bi是一个0-1的常数,然后可以根据bi的大小来进行多分类的任务,如取权重最大的一维。
3、Softmax的输出的每个值都是>=0,并且其总和为1,所以可以认为其为概率分布,这与sigmoid也是不同的,这是选取Softmax还是选取sigmoid的区别的原因。
4、当类别为2时,softmax退化成sigmoid逻辑斯提克函数。
SVM
当loss 为0,则对w进行缩放,结果依旧是0