0. 引言
神经网络的目标函数通常包括两项:数据项(data loss)和正则化项(regularization term)。数据项可以表示为每个样本损失的平均值,用来衡量预测输出和真值之间的接近程度。无论对于分类还是回归,目标函数的数据项可以表示为:
J(θ)=1m∑i=1mLi
正则化项直接对参数施加约束,通常用来避免模型过拟合。本文主要分析神经网络输出层包括多个单元的目标函数。
1. 分类
分类主要包括以下两类:
- 多分类。每个类别是互斥的,比如手写数字识别,输出只能归属到0- 9共10个类别中的一个;
- 属性预测。类别之间可以有交集。比如对音乐属性的预测,(华语,流行,摇滚,民谣),一首音乐可以同时属于多个属性。
对于多分类的情况,可以构造softmax输出层,目标函数的数据项为:
Li=−logefyi∑jefj