一般而言,机器学习方法包含以下几个组件:
数据D:已知的数据集合,通常包含训练数据和测试数据
算法A:在H中选取一个在D上表现最好的假设,在实际中,就是通过最优化理论来选择模型参数。
VC bound :在训练数据和测试数据从同一个概率分布抽取,且数据量够大时时,对于常见的 error measure(0/1 error, square error 等),h在训练数据上的表现与在测试数据上的表现接近,于是我们可以通过最小化训练数据上 error 来最小化在整个数据分布上的 error。
一般而言,机器学习方法包含以下几个组件:
VC bound :在训练数据和测试数据从同一个概率分布抽取,且数据量够大时时,对于常见的 error measure(0/1 error, square error 等),h在训练数据上的表现与在测试数据上的表现接近,于是我们可以通过最小化训练数据上 error 来最小化在整个数据分布上的 error。