机器学习定义:假设P评估计算机在任务T上的性能,若程序利用经验E在T中的任务上获得了性能改善,则关于P和T,程序对E进行了学习。
基本术语:
属性空间、样本空间、输入空间:属性张成的空间。每个样本可在该空间找到自己的坐标,对于一组坐标,称为特征向量。
属性数称为样本的“维数”。
训练样本组成的集合称为“训练集”。
学得模型对应了关于数据的某种潜在的规律称为“假设”,潜在规律称为“真相or真实”
拥有标记的示例称为“样例”
标记的集合称为“标记空间”or“输出空间
如果预测的是离散值,则任务为”分类”;如果预测的是连续值,则任务为“回归”
“二分类”任务中一类为“正类”,一类为“反类”
学得模型后,使用其进行预测的过程称为“测试”,被预测的样本称为“测试样本”
训练集有标记信息则为“监督学习”,没有则为“非监督学习”
学得模型适用于新样本的能力称为“泛化”
假设空间:
所有假设组成的空间即假设空间,假设空间>训练集
“版本空间”即与训练集一致的“假设集合”
归纳偏好:
所有“问题”出线的机会相同、或所有问题同等重要的情况下,总误差与学习算法无关。所以算法的相对优劣,必须要针对具体的学习问题