我试图在一个大数据集上建立一个简单的多层感知器模型,但是我得到的损失值是nan。奇怪的是:在第一个训练步骤之后,损失值不是nan,大约是46(这是奇怪的低。当我运行logistic回归模型时,第一个损失值约为3600)。但是,在那之后,损失值总是nan。我用过tf.打印试着调试它。在
该模型的目标是预测大约4500个不同的类,因此这是一个分类问题。使用时tf.打印,我看到在第一个训练步骤(或通过MLP进行前馈)之后,最后一个完全连接层的预测似乎是正确的(所有数字都在1到4500之间变化)。但是之后,最后一个完全连接的层的输出要么是0,要么是其他常数(0 0 0 0)。在
有关我的模型的一些信息:三层模型。所有完全连接的层。
批量1000
学习率为.001(我也尝试过.1和.01,但没有改变)
使用CrossEntropyLoss(我添加了一个epsilon值来防止log0)
使用AdamOptimizer
学习率衰减为.95
模型的具体代码如下:(我使用的是TF Slim库)input_layer = slim.fully_connected(model_input, 5000, activation_fn=tf.nn.relu)
hidden_layer = slim.fully_connected(input_layer, 5000, activation_fn=tf.nn.relu)
output = slim.fully_connected(hidden_layer, vocab_size, activation_fn=tf.nn.relu)
output = tf.Print(output, [tf.argmax(output, 1)], 'out = ', summarize = 20, first_n = 10)
return {"predictions": output}
任何帮助将不胜感激!非常感谢你!在