傍晚小街路面上沁出微雨后的湿润,和煦的细风吹来,抬头看看天边的晚 霞,嗯,明天又是一个好天气。走到水果摊旁,挑了个根蒂蜷缩、敲起来声音浊响的青绿西瓜,满心期待着皮薄肉厚瓢甜的爽落感…………心里真是美滋滋啊…………
假定我们收集了一批关于西瓜的数据,例如(色泽= 青绿;根蒂= 蜷缩;敲声= 浊响),(色泽= 乌黑;根蒂= 稍蜷;敲声=沉 闷),(色泽= 浅白;根蒂= 硬挺;敲声=清脆),……, 每对括号内是一条记录, 意思 是 “取值为”。
一行一个数据,一列一个特点
一行一个特点,一列一个数据
这组记录的集合称为一个“数据集”(data set), 其中每条记录是关于一 个事件或对象(这里是一个西瓜)的描述,称为一个 “示例”(instance)或 “样本 " (sample). 反映事件或对象在某方面的表现或性质的事项,例如 “色泽” “根蒂” “敲声 " 称为 “属性 "(attribute)或 “特征”(feature); 属性上的取值,例如 “青绿” " 乌黑 " 称为 “属性值”时 tribute value). 属性张成的空间 称为“属性空间" (attribute space)、 “样本空间”(sample space)或 “输入空间”.例如我们把 “色泽” “根蒂” “敲声”作为三个坐标轴,则它们张成 一个用于描述西瓜的三维空间,每个西瓜都可在这个空间中找到自己的坐标位置.由于空间中的每个点对应一个坐标向量,因此我们也把一个示例称为一个 “特征向量”(feature vector)。
总结:
一条记录:对一个事件或对象(这里是一个西瓜)的描述,如:(青绿,蜷缩,浊响)就是一条记录;也叫“一个示例”或者“一条数据”或者“ 一个样本 ”,一条记录表示一个事物或对象的一些特点;(当用一个多维的空间坐标系表示后,又叫 一个向量 )
数据集:就是把一些记录放到一起的集合,大家常说 D = ………… 表示包含了m个样本(或示例、数据、记录)的数据集;
(有时整个数据集亦称一 个 “样本”,因为它可看 作对样本空间的一个采样; 通过上下文可判断出“样 本”是指单个示例还是数 据集.)
属性:又叫、 特征 ,就是一个记录里的取值项,一条记录取了几个值就说它有几个属性(如“色泽”属性,“根蒂”属性,“敲响”属性),一个记录里每个属性的取值就叫这个属性的属性值(如色泽属性的取值是“青绿”,就说是色泽为青绿),或者是说一条记录有几个特征,每个特征的取值又叫特征值,这里和线性代数里矩阵的特征值和特征向量是相对应的。
属性空间:又称为“样本空间”、“ 输入空间 ”,每一条属性都有一个坐标轴,所有属性坐标轴加起来组成的一个多维的坐标空间;
所以一个记录(示例、数据、样本)又叫一个 特征向量
每个 xi 都表示一个向量,一共有 m 个向量;
由于每个示例有所以 d 个属性,所有 x 都是 d 维的向量;
将数据集 D 里的 m 个样本放到一个 d 维的空间坐标系中去(d 个坐标轴组成的空间坐标系),在每个样本中,一个属性对应着一个坐标轴的值;
这个 d 维空间坐标系叫 样本空间 X ;
如:
这有一个由40张脸组成的数据集,每张脸都有眉毛、眼睛、鼻子、嘴巴这4个属性。
则,样本空间是一个4维的,其中有40个向量,每个向量都是4维的,也就是有4个坐标值.
从数据中学得模型的过程称为“学习”(learning)或 “训练”(training), 这个过程通过执行某个学习算法来完成.
训练过程中使用的数据称为“训练数据 "(training data),
其中每个样本称为一个“训练样本" (training sample),
训练样本组成的集合称为“训练集 "(training set).
学得模型对应了关于数据的某种潜在的规律,因此亦称“假设 "(hypothesis);
(判断西瓜好坏,通过那三个特点(规律)建立的模型找到了第四个新的、还没有发现特点(规律),就是某种潜在规律,亦或者说潜在特征)
这种潜在规律自身,则称为 “真相”或 “真实”(ground-truth),
学习过程就是为了找出或逼近真相.
有时将模型称为“学习器”(learner), 可看作学习算法在给定数据和参数空间上的实例化.
如果希望学得一个能帮助我们判断没剖开的是不是“好瓜”的模型,仅有前面的示例数据显然是不够的.
要建立这样的关于“预测”(prediction)的模型,我们需获得训练样本的“结果”信息,例如 “((色泽= 青绿;根蒂= 蜷缩; 敲声=浊响),好瓜)”. (xi通过模型变成了yi)
这里关于示例结果的信息,例如 “好瓜”,称为 “标记" (label);(就是y)
拥有了标记信息的示例,则称为 “样例 "(example),(xi,yi)表示第 i 个样例,其中yi属于Y,Y 是所有标记的集合, 亦称 “标记空间”(label space)或 “ 输出空间 ”.
分类、回归:
分类的y是离散的、回归的y是连续的: 知x 找 f(x) 求 y
若我们欲预测的是离散值,例如 “好瓜” “坏瓜”,此类学习任务称为 “分类 " (classification);
若欲预测的是连续值,例如西瓜成熟度0.95、0.37, 此类学习任务称为 “回归”(reg re ssio n ).
对只涉及两个类别的 “二分类" (binary classifcation)任务,通常称其中一个类为“正类”(positive class), 另一个类为 “反类”(negative c la ss);涉及多个类别时,则称为 “多分类 " (multi-class classification)任务
一般地 ,预测任务是希望通过对训练集 {(x1,y1),(x2,y2),… ,(xm,ym)}进行学习,建立一个从输入空间 X 到输出空间Y 的映射F :Y=F(X),
对二分类任务,通常令y = {- 1 , + 1 }或 {0, 1};
对多分类任务,|y| > 2 ;
对回归任务,y = R ,R为实数集.
学得模型后,使用其进行预测的过程称为“测试”(testing),被预测的样本称为 “测试样本”(testing sample).例如在学得 f(x) 后,对测试例 xi 可得到其预测标记y = f(x).
聚类:
知 y ,对 y 进行分组分类
我们还可以对西瓜做“ 聚类 " (clustering),即将训练集中的西瓜分成若干组,每组称为一个“簇”(cluster);这些自动形成的簇可能对应一些潜在的概念划分,例如 “浅色瓜” “深 色瓜 "甚至 “本地瓜” “外地瓜”.这样的学习过程有助于我们了解数据内在的规律,能为更深入地分析数据建立基础.需说明的是,在聚类学习中,“浅色瓜” “本地瓜”这样的概念我们事先是不知道的, 而且学习过程中使用的训练样本通常不拥有标记信息.
聚类的目的是为了挖掘出潜在的信息
根据训练数据是否拥有标记信息,学习任务可大致划分为两大类:
“ 监督学习 “(supervised learning):如:分类和回归(求 f(x) 和 y)
“ 无监督学习 "(unsupervised learning):如:聚类( 分析 y )
这样说是不准确
需注意的是,机器学习的目标是使学得的模型能很好地适用于“新样本 " 而不是仅仅在训练样本上工作得很好;即便对聚类这样的无监督学习任务,我们也希望学得的簇划分能适用于没在训练集中出现的样本.学得模型适用于新样本的能力,称为 “泛化 " (generalization)能力.
具有强泛化能力的模型能很好地适用于整个样本空间.于是,尽管训练集通常只是样本空间的一个很小的采样,我们仍希望它能很好地反映出样本空间的特性,否则就很难期望在训练集上学得的模型能在整个样本空间上都工作得很好.通常假设样本空间中全体样本服从一个未知“分布 " (distribution )D,我们获得的每个样本都是独立地从这个分布上采样获得的,即 “独立同分布" (independent and identically distributed,简称 i.i.d.) .一 般而言,训练样本越多,我们得到的关于D 的信息越多,这样就越有可能通过学习获得具有强泛化能力的模型.