CH1 机器学习导论
1.1 什么是机器学习
对于某类任务T和性能度量P,如果一个计算机程序在T上以P衡量的性能随着经验E而自我完善,那么为我们称这个计算机程序在从经验E中学习
<P,T,E>
1.2 学习任务
- 有监督学习
- 分类
- 回归
- 降维
- 无监督学习
- 密度估计
- 聚类
- 降维
- 图像分割
- 弱监督学习
- 半监督学习
- 偏监督学习
- 增强学习
- Q-learning
1.3 监督学习
所谓监督学习,就是先利用有标签的训练数据学习得到一个模型,然后使用这个模型对新样本进行预测。在本质上,监督学习的目标在于,构建一个由输入到输出的映射,该映射用模型来表示。
1.4 无监督学习
与监督学习的区别是没有标签
对没有概念标记(分类)的训练样本进行学习,以发现训练样本集中的结构性知识。这里,所有的标记(分类)是未知的。因此,训练样本的岐义性高。聚类就是典型的无监督学习
1.5 半监督学习
介于监督学习与无监督学习之间,使用大量的未标记数据,以及同时使用标记数据,来进行模式识别工作
1.6 聚类与分类
- 聚类
- 将数据对象的集合分成相似的对象类的过程,使得同一个簇(类)中的对象之间具有较高的相似性,而不同簇中的对象具有较高的相异性,并且事先不知道数据集本身有多少类别,属于无监督学习
- 分类
- 实现已知道数据集中包含多少种类,从而对数据集中每一样本进行分类,且所分配的标签必须包含在已知的标签集中,属于监督学习
1.7 分类精度ACC
被正确分类的样本数占样本总数的个数
A
C
C
=
n
c
o
r
r
e
c
t
n
t
o
t
a
l
ACC = \frac{n_{correct}}{n_{total}}
ACC=ntotalncorrect