西瓜书* 南瓜书 * 机器学习 * 周志华 * 第一章 * 学习小结
第一章 绪论
1.1 绪论
通过一个关于 瓜 的故事引入了对于机器学习这门课的学习。
机器学习正是这样一门学科,它致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。
1.2基本术语
数据集 data set
示例 instance
样本 sample
属性 attribute
特征 feature
属性值 attribute value
属性空间 attribute space
样本空间 sample space
特征向量 feature vector
预测 prediction
标记 label
样例 example
标记空间 label space
分类 classification
回归 regression
二分类 binary classification
反类 negative class
正类 positive class
多分类 multi-class classification
测试 testing
测试样本 testing sample
聚类 clustering
监督学习 supervised learning
无监督学习 unsupervised learning
泛化 generalization 能力
分布 distribution
独立同分布 independent and identically distributed
从数据中学得模型的过程称为 学习(leaning) 或 训练(training) ,这个过程通过执行某个学习算法来完成。
训练过程中使用的数据称为 **训练数据(training data) **,其中每个样本称为一个 训练样本 (training sample), 训练样本组成的集合称为 训练集 (training set)。
学得模型对应了关于数据的某种潜在的规律,因此亦称 假设 (hypothesis);
这种潜在规律自身,则称为 真相 或 真实 (ground-truth), 学习过程就是为了找出或逼近真相。
本书有时将模型称为 学习器 (learner), 可看作学习算法在给定数据和参数空间上的实例化。
根据训练数据是否拥有标记信息,学习任务可大致划分为两大类:监督学习 (supervised learning) 和 无监督学习 (unsupervised learning),分类和回归是前者的代表,而聚类则是后者的代表。
1.3 假设空间
归纳 induction
演绎 deduction
归纳 是从特殊到一般的"泛化" (generalization)过程,即从具体的事实归结出一般性规律;
演绎 则是从一般到特殊的"特化" (specialization)叫过程,即从基础原理推演出具体状况。
1.4 归纳偏好
要谈论算法的相对优劣,必须要针对具体的学习问题。
1.5 发展历程
所谓深度学习,狭义的说就是“很多层”的神经网络。
1.6 应用现状
数据挖掘(data mining) 是从海量数据中发掘知识,这就必然涉及对"海量数据"的管理和分析。
1.7 阅读材料
…