1.1什么是机器学习
机器学习致力于研究如何通过计算的手段,利用经验(数据)来改善系统自身的性能。机器学习所研究的主要内容,是关于在计算机上从数据中 产生model的算法,即“学习算法”。
如果说计算机科学是研究关于“algorithm”的学问,
那么类似的可以说机器学习是研究关于“Learing algorithm”的学问。
1.2机器学习简单分类
后面章节会详细介绍
1.3基本术语
数据集:记录数据的集合
属性/特征:反映事件或对象在某方面的表现或性质的事项
属性值:属性上的取值
属性空间/样本空间/输入空间:属性张成的空间
特征向量:
由于空间中的每个点对应一个坐标向量,因此我们也把一个实例称作一个特征向量。如:将西瓜的色泽,根蒂,敲声三个属性作为三个坐标轴,则他们张成的一个用于描述西瓜的三维空间,每个西瓜都可以在这个空间中找到自己的坐标位置。
泛化能力:
机器学习的目的是使学得的模型很好的适用于“新样本”,而不仅仅是在训练样本上的工作的好。学得模型适用于新样本的能力,称为“泛化”。
归纳:
从特殊到一般的“泛化”(generalization)过程,即从具体事实归结出一般性规律;
演绎:从一般到特殊的“特化”(specialization)过程,即从基础原理推演出具体情况。
归纳偏好:
机器学习算法在学习过程中对某种类型假设的偏好