神经网络（二）_在一个k元分类问题中设一个神经网络模型的输出为v神经网络分类算法的目标函数-CSDN博客

本文链接：https://blog.csdn.net/kamidox/article/details/50102327

本文详细介绍了神经网络中的成本函数，包括K类分类问题的神经网络成本函数及其正则化项。解释了如何理解复杂的成本公式，并通过与逻辑回归的对比帮助理解。接着，阐述了向后传播算法的原理，通过反向传播计算各层的误差，进而求解成本函数的微分项。文章还讨论了实践中的注意事项，如参数初始化、数值检验和向量化实现，以确保算法的正确性和效率。

摘要由CSDN通过智能技术生成

成本函数

与线性回归或逻辑回归类似，要使用神经网络对训练数据进行拟合时，需要有成本函数。这样只要针对训练数据，求解成本函数的最小值即可得出神经网络模型参数。

针对 K 类分类问题的神经网络的输出层

h Θ (x) \in R K; (h Θ (x)) k = k t h o u t p u t

$h_\Theta(x) \in R^K; \left( h_\Theta(x) \right)_k = k^{th} output$

其中 K 是输出层的的单元个数，K >= 3。因为如果 K < 3 则可以直接用一个单元表示。其成本函数是：

J (Θ) = - 1 m [\sum i = 1 m \sum k = 1 K y (i) k l o g (h (i) k) + (1 - y (i) k) l o g (1 - h (i) k)] + λ 2 m \sum l = 1 L - 1 \sum i = 1 s l \sum j = 1 s l + 1 (Θ (l) j i) 2

$J(\Theta) = - \frac{1}{m} \left[ \sum_{i=1}^m \sum_{k=1}^K y_k^{(i)} log(h_k^{(i)}) + (1 - y_k^{(i)}) log(1 - h_k^{(i)}) \right] + \frac{\lambda}{2m} \sum_{l=1}^{L-1} \sum_{i=1}^{s_l} \sum_{j=1}^{s_{l+1}} (\Theta_{ji}^{(l)})^2$

其中 $h_k^{(i)} = {h_\Theta(x^{(i)})}_k$ 是输出层的第 $k^{th}$ 个输出值。 $L$ 是神经网络的层数， $s_l$ 是指第 $l$ 层的单元个数。公式的前半部分是未正则化的成本函数，后半部分是正则项，加起来就是正则化的成本公式。注意正则项部分求和时是从 $i=1$ 开始的，即我们不把偏置变量正则化。