1、应用机器学习的三个关键:
①存在规则(规律)
②没办法写成机器能够理解的规则(规律)
③有足够包含有①中的规则(规律)的数据
2、第四节第四小节
1、什么是泛化能力?
泛化能力的定义就是模型在未知的数据上也能够尽可能地预测准确。
2、为什么测试集能够用来测定模型的泛化能力?
因为由霍夫丁不等式可以得到,模型在真实数据中的预测误差跟在测试集中的预测误差的差值大于一个很小的数的概率具有一个上限,而这个上限跟测试集的数量大小成反比,即用作测试集的测试数据越多,则两者的差值越小,也就意味着两者越接近,故而当测试集的数据量越多,在测试集上得到的泛化能力便越能跟真实数据中的泛化能力越接近。
3、当假设集中的假设数量是有限的时候,我们总是能够找到一个使得在测试集上的预测误差跟在真实数据中的预测误差的差值是最小的,同样可有霍夫丁不等式得到。但是该假设在测试集上的误差并不一定是很小的值,只是相对于其它的假设而言更接近真实数据的误差。