首先,我从方法论的角度意识到为什么你的损失函数必须依赖于神经网络的输出.这个问题来自于我在尝试更好地理解Keras和Tensorflow时所做的实验.考虑以下:
input_1 = Input((5,))
hidden_a = Dense(2)(input_1)
output = Dense(1)(hidden_a)
m3 = Model(input_1, output)
def myLoss (y_true, y_pred):
return K.sum(hidden_a) # (A)
#return K.sum(hidden_a) + 0*K.sum(y_pred) # (B)
m3.compile(optimizer='adam', loss=myLoss)
x = np.random.random(size=(10,5))
y = np.random.random(size=(10,1))
m3.fit(x,y, epochs=25)
此代码导致:
ValueError: An operation has `None` for gradient. Please make sure that all of your ops have a gradient defined (i.e. are differentiable). Common ops without gradient: K.argmax, K.round, K.eval.
但是如果你将A行替换为B行,它就会运行,尽管事实上没有任何数字改变.
前一种情况似乎应该对我来说完全没问题.计算图很明确,一切都应该在损失方面是可区分的.但似乎Keras要求y_pred以某种方式处于损失函数中,无论它是否有任何影响.
谢谢!