第一章 绪论

1.1 引言

  • 引言主要讲了本书的是通过学习机器学习来挑选西瓜,

1.2 基本术语

  • 数据集:记录的集合(文中是收集了一批关于西瓜的数据)
  • 示例/样本:关于一个事件或对象的记录(对一个西瓜的描述)
  • 属性/特征:反应对象的性质(西瓜的色泽、根蒂、敲声)
  • 分类/回归:预测值是离散值的学习任务/预测值是连续的学习任务
  • 测试:学得模型后。使其进行预测的过程
  • 预测样本:被预测的样本
  • 学习器:即模型,看作学习算法在给定的数据和参数空间上的实例化
  • Fx:学得f后,对x进行测试,可以得到其预测标记,即y=f(x)
  • 一般的,预测任务希望通对训练集(x1 ,y1)(x2 ,y2)…(xm ,ym)进行学习,建立一个输入空间X到输出空间Y的映射:
分类类别输出取值
二分类通常令Y={-1, +1}或{0, 1}
多分类\Y\ >2
回归类Y∈R
  • 聚类:将西瓜分成若干组,每组称为一个“”,这些自动形成的簇可能对应潜在的概念划分(深色瓜,浅色瓜等)但是“深色瓜,浅色瓜”在聚类学习中事先是不知道的,通常不拥有标记信息

类型训练数据是否有标记代表
监督学习分类和回归
无监督学习聚类
  • 泛化能力:学得模型适应新样本的能力,具有强泛化能力的模型具有很好的适应整个样本空间

1.3假设空间

  • 归纳/演绎:前者从特殊到一般,后者从一般到特殊

  • 假设:学得模型对应某种潜在的规律

  • 假设空间:可能的函数构成的空间称为假设空间

    好瓜↔(色泽= ★) (根蒂 = ★) (敲声 = ★)(★表示通配符)

    好瓜不存在的可能性,用∅表示这种假设。

  • 通过许多策略对这个假设空间进行搜索。搜索策略包括如下:
    ①自顶向下或者自底向上
    ②从一般到特殊或者从特殊到一般
    搜索过程中不断删除与正比例不一致的假设和(或)与反例一致的假设。学习结果将会是获得与训练集一致的假设。

  • 版本空间:与训练集一致的假设合集。

1.4 归纳偏好

  • 归纳偏好:算法在学习中对某种类型假设的偏好。
    当版本空间面临新样本时产生不同的输出。为了确定输出,偏好将起到重要作用。
尽可能特殊:
好瓜 ↔(色泽= ★)  (根蒂 = 蜷缩) (敲声 = 浊响)

尽可能一般:
好瓜 ↔(色泽= ★) ∩(根蒂 = 蜷缩) ∩ (敲声 = ★)或
好瓜 ↔(色泽= ★) ∩ (根蒂 = ★) ∩ (敲声 = 浊响)

但是由于某种原因更相信某种属性。例如更相信根蒂,则会确定为:
好瓜 ↔(色泽= ★) ∩(根蒂 = 蜷缩) ∩ (敲声 = ★)
  • 归纳偏好具有必要性:任何一个有效的机器学习算法必有其归纳偏好。特别是庞大的假设空间中。

如图多个假设与观察一致,A曲线更平滑,B曲线更崎岖
但是最终的归纳偏好要结合实际进行选择。

没有最好的算法只有最合适的算法
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值