BCE Cost Function, binary cross entropy
对于第一项,对实际是1的情况比较重要,如果实际是1,预测是1,loss比较小,实际是1,预测是0,loss比较大
对于第一项,对实际是0的情况比较重要,如果实际是0,预测是0,loss比较小,实际是0,预测是1,loss比较大
尾部会饱和
tanh和sigmoid有相同的饱和问题,tanh的特点是负数被保留,在某些应用中很有用
batch normalization
https://www.bilibili.com/video/BV1Tv411e7fC?p=14&spm_id_from=pageDriver