1、什么是机器学习?
我们根据以往的学习经验,就能对新情况做出有效的决策和预判。机器学习是一门学科,致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。“经验”通常以“数据”形式存在,“学习算法”(learning algorithm)能基于数据产生“模型”(model),在面对新的情况时,模型会给我们提供相应的判断。可以说机器学习时研究关于“学习算法”的学问。【这里的模型就是指训练后的结果,泛指从数据中学得的结果】
[Mitchell, 1997]给出了一个形式化的定义:假设用P来评估计算机程序在某任务类T上的性能,若一个程序通过利用经验E在T中任务上获得了性能改善,则我们就说关于T和P,该程序对E进行了学习。【通俗地说,机器学习就是通过对经验数据进行学习,得到一个能够对新情况进行判断的模型。】
2、基本术语
数据集(data set),每条记录是关于一个事件或对象。(例如,一条记录是关于一个西瓜)
属性(attribute)或特征(feature),记录的类别或事项。(例如,“色泽”、“根蒂”、“敲声”)【如果记录相当于一行数据的话,那么属性就是一列】
属性空间(attribute space)或样本空间(sample space),每个对象都能在这个空间中找到自己的坐标点。每个点对应一个坐标向量,因此一个示例也被称为一个“特征向量”(feat