1. 出现Nan in summary histogram for: conv1/W_conv1/histogram
如图:
当训练到2700的时候,loss的值出现了一个nan的表示。
于是,从做毕业设计就“畅游”(畅游个毛线哦,都快逆死了...)在百度搜索中的我,开始上网查阅解决办法。
查到是因为使用了:
cross_entropy = -tf.reduce_mean(y_ * tf.log(y_conv),name = 'loss')
可以看到这里有一个log函数,众所周知,对于log函数来说,比如log(y),如果y为0,则会出错。
因此解决办法为,用一个很小的值来代替0,比如1e-10来代替0。
由此,可以将这句代码改为:
cross_entropy = -tf.reduce_mean(y_ * tf.log(tf.clip_by_value(y_conv, 1e-10, 1.0)), name = 'loss')
其中1e-10代表最小值,1.0代表最大值。
这样就不会出错啦。
其次考虑到在此之前,我使用的learning_rate = 1e-4,并不会出现这个问题。
而此时我选用的learning_rate = 1e-6,也有可能是学习率选择不恰当造成这个问题。(后来查看发现,对于这个问题来说,这个学习率使得学习并不能收敛。)
以上。
希望给大家带来帮助。