过拟合和欠拟合
欠拟合:模型不能在训练集上获得足够低的误差;过拟合:训练误差和测试误差之间的差距太大。
通过调整模型的容量,可以控制模型是否偏向过拟合或者欠拟合。
从预先知道的真实分布p(x,y)预测而出现的误差被称为贝叶斯误差。
任何模型容量小于最优容量的固定参数模型会渐进到大于贝叶斯误差的误差值。
没有免费午餐定理
在所有可能的数据生成分布上平均之后,每一个分类算法在未事先观测的点上都有相同的错误率。
这可能不好理解,不过还有另一种理解,在某种意义上,没有一个机器学习算法总是比其他的要好。
也就是说机器学习算法并不是通用的,对于不同的问题要有针对性的设计算法,当然这也只是相对最好的学习算法。我们可以通过设置偏好来达到这个要求。
正则化
正则化是指修改学习算法,使其降低泛化误差而非训练误差。我所理解的正则化即给代价函数添加正则化项。
KL散度
表示训练数据经验分布,
将任意输入x映射到实数来估计真实概率
。最小化KL散度就是在最小化分布之间的交叉熵。
任何一个由负对数似然组成的损失都是定义在训练集上的经验分布和定义在模型上的概率分布之间的交叉熵。
PAC学习理论
核心:学习出来的模型会以较大概率接近于最优模型。
因为输入样本过少导致找不到对测试数据具有更好分类结果的假设,那机器学习在学习什么?在学习概率,虽不能对每个特定问题给出最优解,但是可以为问题求解提供一个参考。例如,假设训练集的误差(训练误差)为,总体数据的误差(泛化误差)为
,用
来近似
有多高的精度呢?根据Hoeffding不等式
为任意大于0的常量,N为样本容量。它说明,用随机变量
来估计位置参数
时,虽然前者的概率分布在一定程度上取决于后者,但估计的精度只和样本容量N有关,要提高估计精度,就增加样本容量,极端情况将所有样本全部采集到,那么估计值就等于真实值。
更多关于计算学习理论的内容可以看这里http://www.sohu.com/a/164550264_824406