西瓜书买了好久,终于有机会拿出来看了,第一章总结如下:
一、基本术语
还是用作者的西瓜举例子,背景是收集了大量的西瓜的数据
如(色泽=青绿;根蒂=蜷缩;敲声=浑浊),(色泽=乌黑;根蒂=稍蜷;敲声=沉闷),(色泽=浅白;根蒂=硬挺;敲声=清脆)等
1、数据集:上面的整个数据就是数据集
2、示例/样本:其中每一条记录
3、属性/特征:色泽,根蒂和敲声
4、属性值:青绿,乌黑等
5、属性空间/样本空间/输入空间:如把西瓜的三个属性作为三个坐标轴,则它们张成的三位空间成为属性空间
6、特征向量:每个示例都在属性空间上是一个点,因此一个示例也称为一个特征向量
7、学习/训练:从数据中学得模型的过程称为“学习”,这个过程通过执行某个学习算法完成
8、训练数据:训练过程中使用的数据
9、训练样本:训练数据中的每个样本称为训练样本
10、训练集:训练样本组成的集合称为训练集
11、假设:学得模型对应的关于数据的某种潜在规律(学习就是为了找出或者逼近真相)
12、真相/真实:上面提到的潜在规律就是真相
13、学习器:模型的别称,可以看成学习算法在给定数据和参数空间上的实例化
14、标记:关于示例的结果信息,如:好瓜、坏瓜
15、样例:拥有了标记信息的示例,称为样例
16、标记空间/输出空间:所有的标记的集合
17、分类:预测的是离散值,比如:好瓜、坏瓜,这种学习任务称为分类,只涉及到两个类别的“二分类”任务,通常称其中一类为“正类”,另一类为“反类”
18、回归:预测的是连续纸,如西瓜的成熟度,这种学习任务称为回归
19、测试:学到模型后,用模型进行预测的过程
20、测试样本:被预测的样本
21、聚类:将训练集中的西瓜分成若干组,每组一个“簇“,这些自动形成的簇可能对应某些潜在的概念划分,但是事先我们并不知道,训练样本通常不拥有标记
22、学习任务划分:监督学习(以分类和回归为代表),无监督学习(以聚类为代表)
23、泛化:学习到的模型适用于新样本的能力
24、归纳:特殊到一般,泛化的过程
25、演绎:一般到特殊的特化过程
26、假设空间:所有的假设组成的空间
27、版本空间:存在者多个假设与训练集一直,即与训练集一致的假设集合,版本空间的获得方法通过不断删除与正例不一致的假设、和反例一致的假设
28、归纳偏好:机器学习算法在学习过程中对某种类型假设的偏好,称为归纳偏好,个人理解,就是从多种都符合的版本空间中选择一个自己觉得好的
29、奥卡姆剃刀:引导算法确立”正确的“偏好的一种常用原则,若有多个假设与观察一致,则选最简单的那个,但并非唯一可行的原则,而且哪个假设更简单本身也并不总是个简单的问题,需要借助于其他机制来解决
30、归纳偏好的作用:归纳偏好对应了学习算法本身做出的什么样的算法更好的假设,具体的显示问题中,这个假设是否成立,直接决定了算法是否能够取得好的性能
31、没有免费的午餐定理(NFL):无论学习算法a多机智,算法b多笨拙,他们的期望性能是相同的(前提是所有问题出现的机会相同),但是现实生活中需要具体问题具体分析,因为所有问题出现的机会一般都不是相同的