一些基本术语
学习算法:从数据中学习出潜在规律的算法
机器学习:研究学习算法的学科
假设空间:从输入空间到输出空间的映射的集合。是一个函数空间,是由函数构成的集合。
版本空间:是一个集合。所有能拟合假设的模型的集合。是假设空间的最大子集。该子集内的每一个元素都不与训练集相冲突。
样本空间:样本特征向量所在的空间
标记空间:标记所在的空间
标记离散--分类任务
二分类:y={0,1};y={+1,-1} (阈值)
多分类
标记连续--回归任务
机器学习算法学得的模型可以看作:自变量为样本x,因变量为标记y的函数
泛化能力:在测试集上的效果越好,泛化能力越强
分布:假设样本空间服从一个未知分布,每个样本是“独立同分布”的
归纳偏好:算法“喜欢”更一般的,还是更特殊的?
如何选择:看在测试集上的表现
数据决定模型的上限,算法是让模型逼近这个上限。
数据质量非常重要。