我没有机器学习方面的基础,基本上是零基础,所以得一步一步的学习。
基本术语
首先针对所谓的机器学习的理解,以100个关于西瓜的数据为例,很形象的来解释一些关键术语的意思。
数据集:100个西瓜的这些数据称为数据集
样本:100个西瓜中的每一个西瓜称为样本
属性或特征:100个西瓜中的单独一个西瓜的颜色,大小,敲击的声音等等称为这个西瓜的属性或特征
属性值:一个西瓜的颜色是青色,那么这个西瓜的颜色这个属性的值就是青色。青色就是属性值。
属性空间:如果一个西瓜有三个属性值,颜色、大小和敲击声,那么以这三个属性作为坐标轴xyz,形成了一个三维的空间,这个空间就是西瓜的属性空间
特征向量:属性空间里的一个点有三个坐标,肯定对应一个坐标向量,那么这个点就是特征向量
维数:西瓜的属性个数
学习或训练:从数据中学得模型的过程
训练数据:训练过程使用的数据称为训练数据
训练样本:其中每个样本称为训练样本
训练集:训练样本的集合称为训练集
假设:希望通过训练能得到的关于数据的某种潜在规律称为假设
真相:真正的规律,学习或训练的目的就是为了找出或逼近真相
如果希望得到一个帮助我们判断没剖开的西瓜是不是好瓜的模型,仅仅有前面的100个西瓜的数据是不够的,要建立这样的模型,还需要训练。换句话说,必须要把很多西瓜剖开看是不是好瓜,然后收集形成一条条的记录,比如(青色,大,敲击浑浊的西瓜:好瓜),(白色,大,敲击浑浊的西瓜:好瓜)
标记:上面的“好瓜”或“坏瓜”
标记空间:我们要的可能不止“好瓜”或“坏瓜”,可能还有“中等瓜”,“中等偏上的瓜”等等,这些标记的集合就是标记空间
分类:如果我们要求测的是离散的,比如“好瓜”或“坏瓜”,这类学习任务称为分类
回归:如果我们要求测的是连续的,比如西瓜的成熟度0.95,0.37,这类学习任务称为回归
二分类:即只有两个类别,“好瓜”或“坏瓜”,一般称其中一个为正类,另一个为反类
多分类:即有多个类别
在学得模型之后,使用模型进行预测,其过程称为测试,被预测的样本称为测试样本。比如学得模型后,拿到(青色,大,敲击浑浊的西瓜)这个测试样本,然后根据这个模型进行计算,最终会得到这个样本的标记,也就是“好瓜”或“坏瓜”。
上面介绍了分类,接下来介绍聚类。
需要说明的是,聚类和分类不同,它并非是用来预测西瓜是好瓜还是坏瓜这类问题的,而是专门用于那些通过人工标记很困难或是数据集非常庞大需要先进行筛选的情况,举例说明聚类,通过将西瓜分为浅色瓜还是深色瓜这样的数据训练,习得一种划分西瓜是浅色还是深色的能力,说穿了就是分组的能力。
聚类:将训练集的西瓜分成若干组
簇:上面若干组的每个组称为簇
监督学习:分类和回归是监督学习的代表,它的训练数据需要标记
无监督学习:聚类则是无监督学习的代表,它的训练数据没有标记
泛化能力:指学得的模型适用于新样本的能力