12.计算学习理论
这章主要是为了和西瓜书的章节保持同步,主要是思想层面的内容,没有实质性的算法,可以参考西瓜书学习
计算机学习理论研究的是关于通过计算来进行学习的理论,即关于机器学习的理论基础。
其目的是分析学习任务的困难本质,为学习算法提供理论保证。例如:在什么条件下可进行有效的学习,需要多少训练样本才能获得较好的精度等。
概念介绍
泛化误差与经验误差
经验误差:学习器在某个特定的数据集D上的预测误差
泛化误差:学习器在总体上的预测误差
独立同分布:每个样本都是从总体分布中独立采样得到
PAC理论
PAC(Probably Approximate Correct):概率近似正确学习理论;即以较大的概率学得误差满足预设上限的模型。
PAC理论总结:同等条件下,模型越复杂泛化误差越大。同一模型在样本满足一定条件的情况下,样本数量越大,模型泛化误差越小,因此还可以说模型越复杂越吃样本。
而VC维和Rademacher复杂度都是用来刻画假设空间复杂度的途径。