目录
如何正确采样
理论上要保证数据集与整体集的分布是相同的,然而通常情况下整体集无法衡量,导致数据集上训练良好的参数在整体集上出现较大的错误率。
如何客观保证数据集的选取与整体集更接近?
if 要保证
then (即
与
相似度高)
(其中、
为参数,
任意)
方法:
- 更小的模型可选数量
- 更大的数据集
推导(general situation):
(其中用到了Hoeffding不等式及泛化误差上界,待补充)
问题:数据集的数量通常是有限的,而模型可选过少则会导致model bias
如何对总model集合进行优化?
采用deep learning,会使用更少的参数来形成复杂且有规律的model,使得H有简单的神经网络又有较优的拟合方式。