对于output layer来说,如果是一个output unit的话,costFunction之类的式子就比较容易写,而对于multi-class的分类问题来说,往往有多个output unit,这个时候就需要对公式进行修改。
如上图,第一个logistic regression可以用于output unit为一的neural network。而第二个式子适用于multi-class。
k代表output unit的个数。,后一项则表明,每一个layer中,所有的θ平方的相加。这一项又称为权重衰减项(weight decay)
神经网络的最终目的是求得最小的cost