机器学习基本概念
定义:致力于研究如何通过计算的手段,利用经验来改善系统自身的吸能。
研究的主要内容他:在计算机上从数据中产生“模型”的算法,可以说机器学习是研究关于“学习算法”的学问
基本术语
要进行机器学习,先要有数据,通过下面的例子来说明
假定我们收集了一批关于西瓜的数据,例如(色泽=青绿;根蒂=蜷缩;敲声=浊响), (色泽=乌黑;根蒂=稍蜷;敲声=沉闷), (色泽=浅自;根蒂=硬挺;敲声=清脆),……,每对括号内是一条记录,"=",意思是"取值为"
属性:反应事件或对象在某方面的表现或性质的事项,例如“色泽”、“根蒂”、“敲声”
属性空间: 属性张成的空间。例如我们把"色泽"“根蒂”"敲声"作为三个坐标轴,则它们张成一个用于描述西瓜的三维空间就是属性空间
特征向量:每个西瓜都可在这个空间中找到自己的坐标位置。由于空间中的每个点对应一个坐标向量,因此我们也把这个坐标向量称为一个特征向量。
根据训练数据是否拥有标记信息,学习任务也可大致划分为两大类。
监督学习(supervised learning):训练数据有标记信息,其中分类与回归属于监督学习。
无监督学习(unsupervised learning):训练数据没有标记信息,代表有聚类。
假设空间:所有假设构成的集合。
版本空间:只保留了假设空间中与训练数据集中正例一致的假设,由这些正确的假设构成的集合成为版本空间(简单来说,版本空间就是正例的泛化)。