容量(capacity)
通过调节机器学习模型的容量,可以控制模型是否偏于过拟合还是欠拟合。
容量从本质上说是描述了整个模型的拟合能力的大小。
如果容量不足,模型将不能够很好地表示数据,表现为欠拟合;
如果容量太大,那么模型就很容易过分拟合数据,因为其记住了不适合与测试集的训练集特性,表现为过拟合。
因此控制好模型的容量是一个关键问题。
容量的控制可以通过多种方法控制,包括:
* 控制模型的假设空间。
* 添加正则项对模型进行偏好排除。
上面的两种方法会降低模型的容量
模型的假设空间
假设空间(hypothesis space)指的是算法可以作为解决方案的函数集合。是输入空间到输出空间的映射的集合。
模型的表示容量 和 有效容量
事实上,模型的最大容量被称为表示容量(representational capacity),指的是通过调节参数降低训练目标时,学习算法可以从哪些函数族中选择函数。实际上,从这些函数中挑选出最优函数是一个极为困难的事情,额外的限制,比如优化算法的不完美,使得模型的有效容量(effective capacity)可能会小于表示容量。