第1章 简介篇
1.1机器学习综述
机器学习系统具备如下特点:
>许多机器学习系统所解决的都是无法直接使用固定规则或者流程代码完成的问题,通常这类问题对人类而言却很简单。比如,计算机和手机中的计算器程序就是不属于具备智能的系统,因为里面的计算方法都有很清楚而且固定的规程;但是,如果要求一台机器去辨别一张相片中都有那些人或者物体,这对我们人类来讲非常容易,然而机器却非常难做到。
>所谓具备“学习”能力的程序都是指它能够不断地从经历和数据中吸取经验教训,从而应对未来的预测任务。我们习惯地把这种对未知的预测能力叫做泛化力(Generalization)。
>机器学习系统更加诱人的地方在于,它具备不断改善自身应对具体任务的能力。我们习惯称这种完成任务的能力为性能(Performance)。塞缪尔的西洋棋程序和谷歌的AlphaGo都是典型的借助过去对弈的经验或者棋谱,不断提高自身性能的机器学习系统。
美国卡内基梅隆大学(Garnegie Mellon University)机器学习研究领域的著名教授Tom Mitchell的经典定义:
如果一个程序在使用既有的经验(E)执行某类任务(T)的过程中被认定为是“具备学习能力的”,那么它一定需要展现出:利用现有的经验(E),不断改善其完成既定任务(T)的性能(P)的特性。
三个关键术语:任务(Task)、经验(Experience)、性能(Performance)
1.1.1 任务
机器学习的任务种类有很多,本书侧重于对两类经典的任务进行讲解与实践:监督学习(Supervised Learning)和无监督学习(Unsupervise Learning)。其中,监督学习关注对事物未知表现的预测,一般包括分类问题(Classification)和回归问题(Regression);无监督学习则倾向于对事物本身特性的分析,常用的技术包括数据降维(Dimensionality Reduction)和聚类问题(Clustering)等。
分类问题,顾名思义,便是对其所在的类别进行预测。类别既是离散的,同时也是预先知道数量的。例如,根据一朵鸢尾花的花瓣、花萼的长度等数据,判断其属于哪个鸢尾花亚种;鸢尾花亚种的种类与数量也满足离散和预先知晓这两项条件,因此也是一个分类预测问题。(拓展:这里也同时暴露出一个分类问题的缺陷,就是所有需要预测的类别都是已知的。如果是新物种,我们便无法根据现有经验进行判断。常见的做法是对数据样本的分类表现打分;对于没有满足阈值设定的数据样本,就需要对其做进一步分析,甚至要求人工参与鉴定。)
回归同样是预测问题,只是预测的目标往往是连续变量。比如,根据房屋的面积、地理位置、建筑年代等进行销售价格的预测,销售价格就是一个连续变量。
1.1机器学习综述
机器学习系统具备如下特点:
>许多机器学习系统所解决的都是无法直接使用固定规则或者流程代码完成的问题,通常这类问题对人类而言却很简单。比如,计算机和手机中的计算器程序就是不属于具备智能的系统,因为里面的计算方法都有很清楚而且固定的规程;但是,如果要求一台机器去辨别一张相片中都有那些人或者物体,这对我们人类来讲非常容易,然而机器却非常难做到。
>所谓具备“学习”能力的程序都是指它能够不断地从经历和数据中吸取经验教训,从而应对未来的预测任务。我们习惯地把这种对未知的预测能力叫做泛化力(Generalization)。
>机器学习系统更加诱人的地方在于,它具备不断改善自身应对具体任务的能力。我们习惯称这种完成任务的能力为性能(Performance)。塞缪尔的西洋棋程序和谷歌的AlphaGo都是典型的借助过去对弈的经验或者棋谱,不断提高自身性能的机器学习系统。
美国卡内基梅隆大学(Garnegie Mellon University)机器学习研究领域的著名教授Tom Mitchell的经典定义:
如果一个程序在使用既有的经验(E)执行某类任务(T)的过程中被认定为是“具备学习能力的”,那么它一定需要展现出:利用现有的经验(E),不断改善其完成既定任务(T)的性能(P)的特性。
三个关键术语:任务(Task)、经验(Experience)、性能(Performance)
1.1.1 任务
机器学习的任务种类有很多,本书侧重于对两类经典的任务进行讲解与实践:监督学习(Supervised Learning)和无监督学习(Unsupervise Learning)。其中,监督学习关注对事物未知表现的预测,一般包括分类问题(Classification)和回归问题(Regression);无监督学习则倾向于对事物本身特性的分析,常用的技术包括数据降维(Dimensionality Reduction)和聚类问题(Clustering)等。
分类问题,顾名思义,便是对其所在的类别进行预测。类别既是离散的,同时也是预先知道数量的。例如,根据一朵鸢尾花的花瓣、花萼的长度等数据,判断其属于哪个鸢尾花亚种;鸢尾花亚种的种类与数量也满足离散和预先知晓这两项条件,因此也是一个分类预测问题。(拓展:这里也同时暴露出一个分类问题的缺陷,就是所有需要预测的类别都是已知的。如果是新物种,我们便无法根据现有经验进行判断。常见的做法是对数据样本的分类表现打分;对于没有满足阈值设定的数据样本,就需要对其做进一步分析,甚至要求人工参与鉴定。)
回归同样是预测问题,只是预测的目标往往是连续变量。比如,根据房屋的面积、地理位置、建筑年代等进行销售价格的预测,销售价格就是一个连续变量。