机器学习(西瓜书)学习笔记

第1章 绪论

1.1 引言

数据=经验

1.2 基本术语

  • 数据集(data set)
  • 样本(sample)/示例(instance)
  • 属性(attribute)/特征(feature)
  • 属性值(attribute value)
  • 属性空间(attribute space)
  • 特征向量(feature vector):属性空间中的一个实例
  • 学习(learning)/训练(training):从数据中学得模型的过程
  • 训练集(training set)
  • 测试集(testing set)
  • 模型(model)/学习器(learner):从数据中学得的结果
  • 泛化(generalization)能力:使得无监督学习的结果适用于没在训练集中出现的样本
  • 独立同分布 iid(independent and identically distributed):样本空间中全体样本服从一个未知分布(D)
  • 机器学习:在这里插入图片描述

1.3 假设空间

归纳(induction):从特殊到一般的泛化(generalization)过程
演绎(deduction):从基础原理推演出具体情况

第2章 模型评估与选择

2.1 经验误差与过拟合

  • 误差(error):模型(model)/学习器的实际预测输出与样本的真实输出之间的差异
  • 拟合:包括过拟合(overfitting)与欠拟合(underfitting)
    在这里插入图片描述

2.2 评估方法

  • 数据处理:对原始数据集D进行适当处理,从中产生训练集(S)和测试集(T)
  • 评估指标: 使用测试集T(testing set)来测试学习器对新样本的判别能力,以测试误差(testing error)作为泛化误差的近似

2.2.1 留出法(hold-out)

  • 思路:将数据集D划分成两个互斥的集合,其中一个集合作为训练集S,另一个集合作为测试集T。在S上训练出模型之后,用T来评估其测试误差,作为泛化误差的估计
  • 样本采样方式:分层抽样(stratified sampling)—保留类别比例的采样方式
  • 经验:常将样本的2/3~4/5用于训练,其余用于测试

2.2.2 交叉验证法(cross validation) /k折交叉验证(k-fold cross validation)

  • 思路:例如分成1、2、3、4四部分,我们可以先以1、2、3为训练集,以4为测试集;然后以1、2、4为训练集,以3为测试集…
  • 样本采样方式:分层抽样
  • 经验:常取k=10(10折交叉验证),也取k=5或20

2.2.3 自助法(bootstrapping)

  • 思路:以自主采用法为基础,适用于数据集较小、难以有效划分训练/测试集时很有用;此外他也能从原始数据中产生多个不同的训练集,对集成学习很有帮助。…

  • 样本采样方式:自助采样法(bootstrap sampling)

2.2.4 调参与最终模型

参数调节/调参(parameter tuning),学习算法的参数需要设定,参数的细小差别可能会对产生的模型性能产生显著的变化。

2.3 性能度量

是对模型泛化能力的评价标准

2.3.1 错误率与精度

  • 适用情况:常用于分类

  • 定义:
    ----对于离散样例集D:
    ①错误率在这里插入图片描述
    ②精度
    在这里插入图片描述
    ----对于连续数据分布D:
    ①错误率
    在这里插入图片描述
    ②精度
    在这里插入图片描述

2.3.2 查准率P(precision)、查全率R(recall)与FI

  • 适用情况:常用于信息检索,web检索

  • 定义
    1.查准率P
    在这里插入图片描述

    2.查全率R
    在这里插入图片描述

    3.平衡点BEP(Break-Even Point):

    • 是查准率=查全率时的取值

    • 综合考察查准率、查全率的性能度量

    4.F1

    • 在BEP上的优化指标
    • 在这里插入图片描述
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值