当跑tf训练的时候,有时候的loss会成为nan,一般来说,可能性会有
<1> Activation Function: 当activation function为relu的时候,有可能会导致输出比较大,这样在取e的x方的时候,会把整个数字弄的特别大,然后会出nan。相对来说,tanh, sigmoid的值域是在[-1,1] / [0,1]的范围之内。这两个函数不会出现nan的情况。
但是相对于sigmoid, sgd函数来说,relu函数训练速度比较快
<2> 数据缺失。这个是很显而易见的事情。