一、绪论
(一)引言
机器学习,致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。
形式化定义:
假设用P来评估计算机程序在某任务类T上的性能,若一个程序通过利用经验E在T中任务上获得了性能改善,则我们就说关于T和P,该程序对E进行了学习。
机器学习研究的主要内容:
关于在计算机上从数据中产生“模型”的算法
如果说计算机科学是研究关于“算法”的学问,那么类似的,可以说机器学习是研究关于“学习算法”的学问
(二)基本术语
-
模型
泛指从数据中学得的结果,一般“模型”指的是全局性结果(例如一颗决策树),而“模式”指局部性结果(例如一条规则) -
数据集
记录的集合称为数据集 -
示例、样本
每条记录关于一个事件或对象的描述 -
属性、特征
反映事件或对象在某方面的表现或性质的事项 -
属性值
属性上的取值 -
属性空间 、样本空间、输入空间
属性张成的空间
我们把属性作为坐标轴,则他们张成的空间称为属性空间 -
特征向量
在属性空间中示例的点对应的坐标向量 -
维数
属性空间的维数(等于示例的属性个数) -
学习、训练
从数据中学得模型的过程 -
训练数据
训练过程使用的数据 -
训练样本
训练数据中的样本 -
训练集
训练样本组成的集合 -
假设
学得模型对应了关于数据的某种潜在的规律 -
真相、真实
潜在规律自身 -
标记
关于示例结果的信息 -
样例
拥有标记信息的示例 -
标记空间、输出空间
所有标记的集合 -
泛化能力
模型适用于新样本的能力
-
假设空间
- 所有假设组成的空间
- 我们可以把学习过程看作一个在所有假设组成的空间中进行搜索的过程,搜索目标是找到与训练集匹配的假设。
- 归纳偏好(简称:偏好)
- 机器学习算法在学习过程中对某种类型假设的偏好。
- 任何一个有效的机器学习算法必有其归纳偏好,否则它将被假设空间中看似在训练集上“等效”的假设所迷惑,而无法产生确定的学习结果。
- 学习算法自身的归纳偏好与问题是否向配,往往起到决定性的作用
-
奥卡姆剃刀(Occam’s razor)
若有多个假设与观察一致,则选择最简单的那个 -
NFL定理
无论学习算法A多聪明、学习算法B多笨拙,它们的期望性能相同
(三)机器学习基本分类
(四)发展历程
1、人工智能的三次浪潮
- 跳棋 – 专家系统 – IBM公司
- 象棋 – 统计模型 – IBM公司深蓝
- 围棋 – 深度学习 – DeepMind
2、人工智能场景应用
- 图像识别
- 无人驾驶
- 智能翻译
- 语音识别
- 医疗智能诊断
- 数据挖掘