西瓜书学习笔记1——通俗解释基本术语(机器学习、数据集、特征值、分类、回归、监督学习、半监督学习、泛化)

本人是跨专业考研计算机,是纯小白,从机器学习--周志华(俗称西瓜书)开始学习,记录学习笔记,目的是记录学习的内容,让和我一样的小白能够快速的学习本书中的知识,如果有大佬看到可以多提提意见,一起学习交流,共同进步。

机器学习(machine learning):可以说机器学习是研究关于“学习算法”的学问,即:利用“数据集”来研究数据中的潜在规律,通过这些规律,来应用到其他的数据上,能够接近或者逼近真相,就像是通过生活经验,利用西瓜的一些外在特征,就可以判断出这个西瓜是“好瓜”,还是“坏瓜”。

数据集(data set):是关于一个事件或对象的描述,称为“示例”(instance)或“样本”(sample),比如我们收集到了一批西瓜的数据,(色泽=青绿;根蒂=硬挺;敲声=浊响),(色泽=乌黑;根蒂=稍蜷;敲声=沉闷),(色泽=浅白;根蒂=硬挺;敲声=清脆)……,每对括号里是一个记录,这组记录的集合就是数据集。其中“=”意思是“取之为”。

:“色泽”、“根蒂”、“敲声”,称为“属性”(attribute)或“特征”(feature)

“青绿”,“乌黑”,称为“属性值”(attribute value)或“特征值”(feature value)

特征向量(feature vector):例如我们把“色泽”,“根蒂”,“敲声”作为三个坐标轴,则他们张成一个用于描述西瓜的三维空间,每个西瓜都可以在这个空间中找到自己的坐标位置,由于空间中的每个点对应一个坐标向量,因此也把一个示例或数据称为一个“特征向量”。

数据集分为“训练集”(training data)和“测试集”(testing data)

训练集:训练的过程使用的数据集。

测试集:进行测试使用的数据集。

一般地,预测任务是希望通过对训练集进行学习,建立一个从输入空间X到输出空间Y的映射:f:X➡️Y,在学到f后,对测试集进行测试,看这个模型训练的精度能够达到多少。

标记(label):有些人称为“标签”,因为我们为了判断一个没剥开的西瓜是不是好瓜,仅通过前面示例给到的数据是不够的,所以我们要建立“预测”(prediction),也就是训练样本得到的“结果”信息,比如“((色泽=青绿;根蒂=硬挺;敲声=浊响),好瓜)”,这里关于示例结果的信息,“好瓜”,称为“标记”/“标签”。

分类(classification):如果我们想要预测的是离散值,比如“好瓜”、“坏瓜”,此类学习任务称为“分类”。

“二分类”(binary classification)任务:只涉及到两个类别,就是这里所说的“好瓜”或“坏瓜”,通常称其中一个类为“正类”(positive class),另一个类为“反类”(negative class)。

“多分类”(multi- class classification)任务:涉及到多个类别。

回归(regression):如果我们想预测的是连续值,比如西瓜成熟度0.95、0.37,此类学习任务称为“回归”。

聚类(clustering):将训练集中的西瓜分为若干个组,每组称为一个“簇”,这些自动形成的簇可能对应一些潜在的概念划分,例如“浅色瓜”,“深色瓜”,这样学习有助于了解数据内在规律,能为更深入分析数据建立基础,在聚类学习中,“浅色瓜”,“深色瓜”这些概念我们事先不知道,在学习的过程中通常不拥有标记信息,不断的学习,将“浅色瓜”学习的过程中聚集在一类。

根据训练数据是否拥有标记信息,学习任务大致分为两类:监督学习和无监督学习。有些教程可能还有半监督学习

监督学习(supervised learning):分类和回归属于监督学习

无监督学习(unsupervised learning):聚类属于无监督学习

泛化(generalization):因为机器学习的目标是使模型能够适用于新的样本,不仅仅在训练集上工作的很好,这种能力称为泛化能力

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值