西瓜书第1、2章学习笔记

Zenobia_FL

于 2021-11-17 00:46:18 发布

阅读量635

点赞数

分类专栏：机器学习文章标签：机器学习算法人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Zenobia_FL/article/details/121368696

版权

机器学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

谈论算法的相对优劣，必须要针对具体的学习问题。

【一、基本概念】（仅记录自己不太熟悉或需要记忆的概念）

属性空间 (attribute space)：属性张成的空间，也称为样本空间（sample space）或输入空间。

真相、真实（ground-truth）：潜在规律自身。

标记空间（label space）：所有标记的集合，也称输出空间。

泛化（generalization）能力：学得模型适用于新样本的能力。

归纳（induction）：从特殊到一般的泛化过程。

演绎（deduction）：从一般到特殊的特化（specialization）过程。

版本空间（version space）：存在着一个与训练集一致的“假设集合”。

归纳偏好（inductive bias，简称偏好）：机器学习算法在学习过程中对某种类型假设的偏好。

奥卡姆剃刀：一种常用的、自然科学研究的最基本原则，“若有多个假设与观察一致，则选最简单的那个”。

错误率（error rate）：分类错误的样本数占样本总数的比例。

精度（accuracy）：精度=1-错误率。

训练误差（training error）：训练集上的误差，又称经验误差（empirical error）。

泛化误差（generalization error）：在新样本上的误差。

分层采样（stratified sampling）：保留类别比例的采样方式。

交叉验证法：将数据集分为k个大小相似的互斥子集，每次用k-1个子集作为训练集，余下的那个子集作为测试集，对样本进行k次训练和测试，结果取均值。又称k折交叉验证。

留一法（Leave-One-Out，LOO）：特殊的交叉验证法，数据集中包含m个样本，分成k=m个子集。

自助法：对于有m个样本的数据集D，重新建立一个新的数据集D'，每次有放回的随机在D中采样一个样本放入D'中，共采样m次。估计出大概有36.8%的样本不会被采样。以D'为训练集，D\D'（表示集合减法）做测试集。

包外估计（out-of-bag estimate）：自助法的测试结果。

【二、知识脉络】

第一章主要介绍什么是机器学习，好的机器学习应该具有什么能力。

机器学习是通过已有的数据训练出模型，应用到新的数据中去的一种“学习算法”的学问。对于一个好的模型，要有恰当的特征、合适的算法、归纳偏好以及合理的评估手段。

第二章讲的是模型评估和选择。

评估方法：留出法、交叉验证法（特殊地，有留一法）、自助法

性能度量：均方误差、错误率与精度、查准率、查全率、F1、ROC、AUC、代价敏感错误率、代价曲线

比较检验：假设检验、交叉验证t检验、Friedman检验、Nemenyi后续检验

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
西瓜书第1、2章学习笔记

谈论算法的相对优劣，必须要针对具体的学习问题。【一、基本概念】（仅记录自己不太熟悉或需要记忆的概念）属性空间 (attribute space)：属性张成的空间，也称为样本空间（sample space）或输入空间。真相、真实（ground-truth）：潜在规律自身。标记空间（label space）：所有标记的集合，也称输出空间。泛化（generalization）能力：学得模型适用于新样本的能力。归纳（induction）：从特殊到一般的泛化过程。演绎（deduction）
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。