1.1引言
机器学习定义:研究如何通过计算的手段,利用经验(数据)改善系统的性能。
在计算机上从数据中产生模型的算法,即学习算法。
假设用P评估计算机程序在某任务类T上的性能,程序利用经验E,在T上改善了P
1.2基本术语
数据集:记录的集合
属性/特征:事件或对象在某方面的表现或性质的事项
属性值:属性的取值
属性空间/样本空间/输入空间:属性张成的空间
特征向量:一个示例
维数:属性的个数
标记:示例的结果(好瓜、坏瓜)
样例:有标记信息的示例
标记空间/输出空间:所有标记的集合
分类:离散值
回归:连续值
聚类:将训练集中的西瓜分成若干组
监督学习:训练数据有标记信息,对应分类和回归
无监督学习:训练数据没有标记信息,对应聚类
泛化能力:学得模型适用于新样本的能力
1.3假设空间
科学推理的2大基本手段:归纳、演绎
归纳学习:从样例中学习
概念学习/概念形成:狭义的归纳学习,从训练数据中学得概念
布尔概念学习:可表示为0/1布尔值的目标概念的学习
版本空间:多个假设与训练集一致
1.4归纳偏好
机器学习算法在学习过程中对某种类型假设的偏好
奥卡姆剃刀:若有多个假设与观察一致,则选最简单的那个
没有免费的午餐:学习算法的期望性能相同
1.5发展历程
SVM支持向量机
深度学习:狭义,很多层的神经网络
1.6应用现状
计算机视觉
自然语言处理
生物信息学
天气预报、能源勘测、环境检测
商业营销
自动驾驶
人类如何学习,SDM(space distributed memory)