本系列是根据清华大学出版,南京大学周志华教授撰写的《机器学习》教材的编写的学习笔记。现在正处于研一阶段,刚接触机器学习方向,很多知识都只是结合自己浅显的理解,但是我相信我会慢慢的越来越厉害~~~
本篇主要介绍了该教材前两个章节的主要知识点。
1.绪论
机器学习是指在计算机上从数据中产生“模型”的算法,即“学习算法”。
在已有的数据集基础上产生“模型”,再对新的数据做出合理的判断。例如:如何让计算机通过大量的挑瓜经验来挑选一个又甜又大的西瓜?
1.1基本术语
假设我们收集了一批西瓜的数据,例如:(色泽=青绿; 根蒂=蜷缩; 敲声=浊响), (色泽=乌黑; 根蒂=稍蜷; 敲声=沉闷), (色泽=浅自; 根蒂=硬挺; 敲声=清脆)……每对括号内是一个西瓜的记录,定义:
①所有记录的集合为:数据集。每一条记录称为一个示例(instance)或样本(sample)。
色泽或敲声,称为特征(feature)或属性(attribute),青绿乌黑为相对应的属性值。
②每一条记录(如“色泽”“根蒂”“敲声”)可以在坐标轴上用三维空间表示,每个西瓜都可以在空间中用一个点表示,一个点也是一个向量,即每个西瓜为:一个特征向量(feature vector)。
③一个样本的特征数为:维数(dimensionality),即该西瓜的例子维数为3。