机器学习-学习笔记(一)第一章 基本概念

    看完了西瓜书的第一章,做一个简单的笔记。

 一、基本概念

属性(attribute)/特征(feature)-反映事件或对象在某方面的表现或性质的事项,属性张成的空间称为“属性空间”(attribute space)/“样本空间”(sample space)。

示例(instance)/样本(sample)-关于一个事件或对象的描述,每个示例由d个属性描述可表示为是d维样本空间Y中的一个向量,,d称为样本的维数(dimensionality),可以将一个示例称为一个特征向量。

数据集(data set)-样本组成的集合,表示包含m个示例的数据集。

训练集(training set)-训练/学习过程中使用的数据的集合,其中每个样本称为一个训练样本(training sample)。

假设(hypothesis)与真实(ground-truth)-学得模型对应了关于数据的某种潜在规律,这种潜在规律自身成为真实/真相,设X为样本空间,x为样本,y为样本的标记,则f(x)表示希望模型学得的真实,则h(x)表示一种假设。

样例(example)-拥有了标记(label)信息的示例,标记是关于示例结果的信息,一般用表示第i个样例,其中,Y是所有标记的集合称为标记空间(label space)/输出空间。

分类(classification)/回归(regression)-预测的是离散值的学习任务称为分类,预测连续值的学习任务称为回归,只涉及两个类别称为二分类(binary classification),通常称其中一个为正类(positive class)一个为反类(nagative class),涉及多个类别称为多分类(multi-class classification)。

聚类(clustering)-将训练集中的样本分成若干组,每组称为一个“簇”(cluster),这些自动形成的簇可能对应一些潜在概念划分。

根据训练数据是否拥有标记信息,学习任务可大致划分为两大类:“监督学习”(supervised learning)“无监督学习”(unsupervised learning),分类和回归是前者的代表,而聚类则是后者的代表。

泛化(generalization)能力-学得模型适用于新样本的能力。

假设空间(hypothesis space)-所有假设组成的空间,对于样本空间X,所有可能的h(x)组成的空间就是假设空间,学习过程可以看作是在假设空间内的搜索,搜索过程中不断的删除与正例不一致的假设和反例一致的假设。

版本空间(version space)-与训练集一致的假设集合,即版本空间内所有假设在训练集上的输出一致。

归纳偏好(inductive bias)-学习算法在学习过程中对某种类型假设的偏好,小概念(奥卡姆剃刀)。

NFL定理证明过程中对指示函数的求和用到了二项式定理的结论。

二、习题

1.1    模拟搜索过程,从正例的特例开始泛化,删除与反例相同的假设即可得到版本空间,大小为7。

1.2    不考虑冗余时是所有假设的组合数,考虑冗余则较难。

1.3    在匹配属性尽可能多的情况下选择匹配样本多的假设。

1.4    对评估函数的求和为常数,看到这一点证明便简单了。

1.5    输入分类、搜索匹配、结果分类、图片搜索等环节。



    

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值