看完了西瓜书的第一章,做一个简单的笔记。
一、基本概念
属性(attribute)/特征(feature)-反映事件或对象在某方面的表现或性质的事项,属性张成的空间称为“属性空间”(attribute space)/“样本空间”(sample space)。
示例(instance)/样本(sample)-关于一个事件或对象的描述,每个示例由d个属性描述可表示为是d维样本空间Y中的一个向量,
,d称为样本的维数(dimensionality),可以将一个示例称为一个特征向量。
数据集(data set)-样本组成的集合,表示包含m个示例的数据集。
训练集(training set)-训练/学习过程中使用的数据的集合,其中每个样本称为一个训练样本(training sample)。
假设(hypothesis)与真实(ground-truth)-学得模型对应了关于数据的某种潜在规律,这种潜在规律自身成为真实/真相,设X为样本空间,x为样本,y为样本的标记,则f(x)表示希望模型学得的真实,则h(x)表示一种假设。
样例(example)-拥有了标记(label)信息的示例,标记是关于示例结果的信息,一般用表示第i个样例,其中
,Y是所有标记的集合称为标记空间(label space)/输出空间。
分类(classification)/回归(regression)-预测的是离散值的学习任务称为分类,预测连续值的学习任务称为回归,只涉及两个类别称为二分类(binary classification),通常称其中一个为正类(positive class)一个为反类(nagative class),涉及多个类别称为多分类(multi-class classification)。
聚类(clustering)-将训练集中的样本分成若干组,每组称为一个“簇”(cluster),这些自动形成的簇可能对应一些潜在概念划分。
根据训练数据是否拥有标记信息,学习任务可大致划分为两大类:“监督学习”(supervised learning)和“无监督学习”(unsupervised learning),分类和回归是前者的代表,而聚类则是后者的代表。
泛化(generalization)能力-学得模型适用于新样本的能力。
假设空间(hypothesis space)-所有假设组成的空间,对于样本空间X,所有可能的h(x)组成的空间就是假设空间,学习过程可以看作是在假设空间内的搜索,搜索过程中不断的删除与正例不一致的假设和反例一致的假设。
版本空间(version space)-与训练集一致的假设集合,即版本空间内所有假设在训练集上的输出一致。
归纳偏好(inductive bias)-学习算法在学习过程中对某种类型假设的偏好,小概念(奥卡姆剃刀)。
NFL定理证明过程中对指示函数的求和用到了二项式定理的结论。
二、习题
1.1 模拟搜索过程,从正例的特例开始泛化,删除与反例相同的假设即可得到版本空间,大小为7。
1.2 不考虑冗余时是所有假设的组合数,考虑冗余则较难。
1.3 在匹配属性尽可能多的情况下选择匹配样本多的假设。
1.4 对评估函数的求和为常数,看到这一点证明便简单了。
1.5 输入分类、搜索匹配、结果分类、图片搜索等环节。