机器学习:计算机从数据中产生“模型”的算法
1.基本术语
数据集:记录的集合(许多西瓜)
样本或示例:对于一个事件或对象的描述(一个西瓜)
特征或属性:反映事件或对象在某方面的表现或性质的事项(色泽,根蒂,敲声)
属性值:属性的取值(青,乌黑,清脆)
样本空间或属性空间或输入空间:属性张成的空间(色泽,根蒂,敲声作为三个坐标轴,一个描述西瓜的三维空间,每个西瓜有对应的坐标)
特征向量:空间中每一个点对应于一个坐标向量,一个示例作为一个特征向量
训练数据:训练过程中使用的数据
训练样本:其中每个样本
训练集:训练样本组成的集合
假设:学得模型对应关于数据的某种潜在的规律
真相或真实:潜在规律的本身
标记(label)
样例:拥有标记信息的示例——有时也称为样本
标记空间或输出空间:所有标记的集合
若预测的是离散值---->分类;预测的是连续值----->回归
二分类任务其中一个类为正类,另一个为 负类
多分类任务:通过对于带标记的训练集进行训练,建立一个从输入空间到输出空间的映射
测试:学得模型之后,使其进行预测的过程
测试样本:被预测的样本(不含标记)
聚类学习:把训练集分成若干个组,每个组成为一个蔟(cluster),对应一些潜在概念,其这些概念我们事先完全不知道,且在学习过程中使用的训练样本通常不拥有标记信息
监督学习---->有标记信息 分类、回归
无监督学习----->无标记信息 聚类
泛化能力:学得模型在新样本的能力
通常假设样本呢空间中全体样本服从一个未知的分布(distribution)D, 每个样本都是独立地从这个分布中采样及独立同分布(independent and identically distributed , iid)
训练样本越多得到的分布信息越多,得到的泛化能力越强
2.假设空间
归纳(induction)和演绎(deduction)是科学推理的两大基本手段
概念学习与概念形成:从训练数据中学得概念
假设的表示一旦确定,假设空间及其规模大小也就确定了
例:色泽,根蒂,敲声每个有3种选择,4*4*4+1=65
版本空间:可能有多个假设与训练集一致,即存在着一个与训练集一致的假设集合(即:我们不收留与训练集相悖的假设)
一、分别考虑
现在一共有3个特征,如果我们只需要从3个特征中选取一个特征中作为最终的结果(这意味着剩余两个特征无关紧要),我们一共有3*3=9种可能;
如果我们需要从3个特征中选取2个特征作为最终的结果,则一共有C23∗3∗3=27种可能;
如果我们需要从3个特征中选取3个特征作为最终的结果,则一共有3∗3∗3=27种可能;
如果我们一个特征都不需要,恒真,则为一种可能;
如果我们发现什么特征都没有用,恒假,则为另外一种可能;
综上一共有65种可能。
二、 整体考虑
引入通配符,作为这个特征无关紧要的标志。
(∗+3个属性)(∗+3个属性)(∗+3个属性)+恒假=65种可能;
以上便是两种得到65的思路。
3.归纳偏好
归纳偏好或偏好:机器学习算法在学习过程中对某种假设的偏好
特征选择:对于”根蒂“还是”响声“更重视
奥卡姆剃刀是一种常见的、自然科学研究中基本的原则,即若有多个假设与观察一致,则选择最简单的那个
算法的归纳偏好是否与问题本身匹配,大多数时候决定了算法能否取得好的性能
NFL定理的含义:脱离具体问题,空谈什么学习算法更好毫无意义