此随笔为自学笔记,书籍为:《机器学习》作者为周志华
一 基本术语
1.1基本术语
假定我们收集了一批关于西瓜的数据,例如:(色泽=青绿;根蒂=蜷缩;敲声=浊响),(色泽= 乌黑;根蒂=稍蜷;敲声=沉闷),(色泽=浅白;根蒂=硬挺;敲声=清脆),每个()内是一条记 录。
“=”号的意思是取值为。
- 这组记录的集合称之为”数据集“,其中每一条记录是关于一个事件或对象(在这里指的是一个西瓜)的描述,称为一个”示例“或”样本“
- 色泽,根蒂,敲声,称为“属性”或”特征“(反映事件或对象在某个方面的表现或性质)
- 属性或特征上的取值,例如”青绿“,”乌黑“,称为”属性值“
- 属性张成的空间称为”属性空间“,”样本空间“,或”输入空间“。
- 一般的,令D={x1,x2,...,xm} 表示包含了m个示例的数据集,每个示例由d个属性描述(例如上面的西瓜数据使用了三个属性),每个示例xi=(xi1;xi2;...;xid)是d维样本空间X中的一个向量。
- d称为样本xi的维数
1.2分类与回归
- 若我们预测的是离散值,例如“好瓜” “坏瓜”,此类学习任务称为“分类”
- 若预测的是连续值,例如西瓜的成熟度0.95,0.37,此类学习任务称为“回归”
1.3学习任务的分类
根据训练数据是否拥有标记信息,学习任务可大致划分为两大类:
- 监督学习
- 无监督学习
其中,分类和回归是监督学习的代表。而聚类是后者的代表。(聚类暂不接触)
1.4模型的描述术语
通过训练集训练出来的模型,适用于新样本数据的能力,称之为“泛化”,泛化能力越强越好。
- 归纳:从特殊到一般的“泛化” 即,从具体的实事归结出一般性规律。
- 演绎:一般到特殊的”特化“ 即,从基础原理推演出具体情况
归纳学习有广义与狭义之分,广义的归纳学习大体相当于从样例中学习。
狭义的归纳学习则要求从训练数据中学得概念,因此也称为“概念学习”或者是”概念形成“
1.5概念学习
概念学习最基本的是布尔概念学习,即对“是” “不是”这样的可表示为0/1布尔值的目标概念的学习,举一个简单的例子,假定我们获得了这样一个训练数据集。
编号 | 色泽 | 根蒂 | 敲声 | 好瓜 |
1 | 青绿 | 蜷缩 | 浊响 | 是 |
2 | 乌黑 | 蜷缩 | 浊响 | 是 |
3 | 青绿 | 硬挺 | 清脆 | 否 |
4 | 乌黑 | 稍蜷 | 沉闷 | 否 |