关于机器学习的一些基本概念的整理
1.前言
1.机器学习是一门致力于研究如何通过计算的手段,利用经验来改善系统自身的性能的学科。1997年Mitchell给出一个更形式化的定义,假设用P来评估计算机程序在某任务类T上的性能,若一个程序通过利用经验E在T中任务上获得了性能改善,则我们就说关于T和P,该程序对E进行了学习。
- 机器学习所研究的主要内容,是关于在计算机上从数据中产生“模型”的算法,即学习算法(learning algorithm)。“数据”即是现实生活中的“经验”。
- 关于产生的模型(model),可以泛指从数据中学得的结果。但也有不同说法。Hand在2001年发表的一篇文献中就提到,模型是全局结果(例如一颗决策树),模式指的是局部性结果(例如一条规则)。
2. 基本术语
引例,假设搜集到一些关于西瓜的数据(色泽 = 青绿;根蒂 = 蜷缩;敲声 = 浊响),(色泽 = 乌黑;根蒂 = 稍蜷;敲声 = 沉闷),(色泽 = 浅白;根蒂 = 硬挺;敲声 = 清脆),......
上述引例中,每对括号内是关于西瓜的(也可是任何一个事件或者对象的)一条记录,则有:
数据集 (data set): 一组记录的集合
示例/样本(instance/sample):上述都每一条记录,均可称为示例/样