目录
1.基本术语
假如我们收集了一批关于西瓜的数据,例如(色泽=青绿;根蒂=蜷缩;敲声=浊响),(色泽=乌黑;根蒂=稍蜷;敲声=沉闷),(色泽=浅白;根蒂=硬挺;敲声=清脆),......
(1)数据集:这组记录的集合称为一个数据集
(2)示例/样本:一个西瓜的描述
(3)属性/特征:例如“色泽”,“根蒂”,“敲声”
(4)属性值:例如“青绿”,“乌黑”
(5)特征向量:[“色泽”,“根蒂”,“敲声”]
(6)分类:预测的是离散值,例如“好瓜”,“坏瓜”
(7)回归:预测的是连续值,例如西瓜成熟度0.95、0.37
(8)聚类:将训练集中的西瓜分成若干组,每组称为一个“簇”,学习过程中没有标记
(9)监督学习:样本有标记,如分类和回归
(10)无监督学习:样本无标记,如聚类
(11)泛化能力:学习出的模型适用于新样本的能力
2.假设空间
(1)归纳:从具体事实归结出一般性规律
(2)演绎:从基础原理推演出具体状况
(3)假设空间:把学习过程看作一个在所有假设组成的空间中进行搜索的过程,搜索目标是找到与训练集“匹配”的假设,即能将训练集中的瓜判断正确的假设。西瓜问题假设空间:
(4)版本空间:存在多个与训练集一致的“假设集合”。
3.归纳偏好
根据上述西瓜版本空间中存在3个与训练集一致的假设。
但3个模型在面临新样本时,却会产生不同的输出,这个时候应该采用哪一种模型?
归纳偏好:机器学习算法在学习过程中对某种类型假设的偏好。
没有免费的午餐:所有机器学习算法的期望性可能跟随机乱猜差不多。
我们只关注自己正在试图解决的问题,希望为它找到一个解决方案,至于这个方案在别的问题、甚至在相似的问题上是否为好方案,我们并不关心。