学习教材为周志华教授的西瓜书《机器学习》
1.2 基本术语
维数 dimensionality
示例 instance
属性或特征 attribute or feature
特征向量 feature space
预测 prediction
标记 label 好瓜
样例 example 具有标记信息的示例
标记空间或输出空间 label space 所有标记的集合
分类classifaction 预测的是离散值(好瓜 坏瓜)的学习任务
回归regression 预测的时连续值(成熟度0.5 0.75)的学习任务
只涉及两个类别的“二分类”(binary classification)任务,其中一个类为“正类”(positive class),另一个为“反类”(negative class)
涉及多个类别的“多分类”(multi-class classification)任务
聚类(clustering)将训练集中的西瓜分成若干组,每组为一个簇(cluster)
根据训练数据是否拥有标记信息,学习任务可大致分为两类:“监督学习”(supervised learning)和“非监督学习”(unsupervised learning)。分类和回归是前者代表,聚类是后者代表。
独立同分布(independent and identically distribution,简称i.i.d)
1.3 假设空间
归纳(induction)和演绎(deduction)是科学推理的两大基本手段。
泛化(generalization)和特化(specialization)
假设(hypothesis)
假设空间和版本空间(version space)<一个假设与“假设空间一致的空间”>
1.4 归纳偏好
存疑?:归纳偏好对训练结果的影响
“没有免费午餐”定理(No Free Lunch Theorem,简称NFL定理):无论学习算法£1多聪明、学习算法£2多笨拙,它们的期望都是相同的
寓意是脱离具体问题,空泛讨论“什么学习算法最好”毫无意义,因为潜在的问题,则所有学习算法都一样好.要谈论算法相对优劣,必须要针对具体的学习问题