tensorflow / keras LSTM训练时候nan情况
当跑tf训练的时候,有时候的loss会成为nan,一般来说,可能性会有
Activation Function: 当activation function为relu的时候,有可能会导致输出比较大,这样在取e的x方的时候,会把整个数字弄的特别大,然后会出nan。相对来说,tanh, sigmoid的值域是在[-1,1] / [0,1]的范围之内。这两个函数不会出现nan的情况。
但是相对于si
原创
2017-10-07 13:52:18 ·
7315 阅读 ·
0 评论