1.隐藏层的层数
一般来说,层数越多,整个网络的误差也就越小,但是会是整个网络复杂化,增加网络的训练时间,也有可能出现“过拟合”(太适应于训练集,在测试集上效果不好)的情况。一般来说,一两层的隐藏层已经能够解决很多问题了,如果数据量多,可以在防止出现过拟合的情况下适当的增加层数。
2.隐藏层节点数
隐藏层节点数是导致“过拟合”的直接原因,确定隐藏层节点数与输入输出维度相关,并且每个模型都是不一样的。目前来说,确定隐藏层节点数也是比较困难的,但是必须满足以下两个条件:
- 1.隐藏层的节点数必须小于n-1,其中n是训练样本数量。如果节点数不满足这个条件,那么平均下来,每个节点甚至控制不到一个样本,这样子会造成样本与误差相关性小,使得网络泛化能力不行(用新的数据来评估效果就是不好),整个网络没啥意义。
- 2.同样,输入层的节点也要小于n-1,理由同上。(虽然这个不是属于隐藏层,输入输入层,但是由于和隐藏层节点相似,也提一下)
- 3.训练的样本数量必须多于网络模型中的参数,一般要求是2-10倍。样本数量实在不够,那就采取别的方法来增加训练数量,比如K倍交叉法来进行。
总结:针对不同的模型,隐藏层的层数以及隐藏层节点数是不同的,需要考虑输入输出的维度、网络的复杂度、训练样本数量、误差大小等等因素。节点数少了,模型不具有泛化能力,没啥效果;节点多了,容易陷入局部最优(某几个样本相似,然后整个网络往这几个样本靠拢),甚至出现过拟合。