机器学习所研究的主要内容就是从数据中产生模型,也就是学习算法,给学习算法提供经验数据,基于这些数据训练出新模型,在面对新的情况时,该模型会给我们提供相应的判断。即从数据中产生模型,由模型作出相应的判断和预测。
基本术语:
(1)数据集
(2)示例/样本
(3)属性
(4)属性空间/样本空间
(5)特征向量
(6)维数
(7)标记
(8)样例
(9)回归:预测的是连续值
(10)分类:预测的是离散值
(11)学习/训练:从数据中学得模型的过程
(12)监督学习:训练数据拥有标记信息的学习过程
(13)无监督学习:训练数据没有标记信息的学习过程
(14)归纳:从特殊到一般的泛化过程
(15)演绎:从一般到特殊的特化过程
(16)假设空间:所有假设组成的空间,包含所有属性的所有可能取值
(17)版本空间:从假设空间中,根据所提供的数据集删除不一致的假设结果后剩下的假设集合
(18)归纳偏好:机器学习算法在学习过程中对某种类型假设的偏好,任何一个有效的机器学习算法必有其归纳偏好
(19)奥卡姆剃刀:若有多个假设与观察一致,则选择最简单的那个
(20)NFL定理:对于同一个问题,无论学习算法a多聪明,学习算法b多笨拙,他们的期望性能相同。NFL定理意在让我们清楚的认识到,脱离具体问题空谈什么算法更好,毫无意义。