吃瓜笔记：Task01 绪论、模型评估与选择

余舍

已于 2022-05-23 14:27:25 修改

阅读量239

点赞数

分类专栏：吃瓜笔记文章标签：机器学习算法人工智能

于 2022-05-17 16:58:11 首次发布

本文链接：https://blog.csdn.net/qq_42759209/article/details/124824755

版权

吃瓜笔记专栏收录该内容

3 篇文章 0 订阅

订阅专栏

Datawhale 2022年5月吃瓜教程 Task01
所用教程：《机器学习》（周志华），《机器学习公式详解》（谢文睿，秦州）

组织者学习建议：
西瓜书第1章和第2章主要是讲一些基本概念和术语，大家自己看就好，不过第1章和第2章有一些知识点可以跳过不看，这些知识点在没有学过后面章节的具体机器学习算法之前较难理解，下面我将其划出来：
第1章：【1.4-归纳偏好】可以跳过
第2章：【2.3.3-ROC与AUC】及其以后的都可以跳过

一张理解图
在这里插入图片描述

序言

统计机器学习算法都是基于样本数据独立同分布的假设

第一章绪论

引言：

什么是机器学习：
如何通过计算的手段，利用经验来改善系统自身的性能

基本术语：略

发展历程：略

应用现状：略

假设空间（模型建立）

机器学习是归纳学习 inductive learning

广义的归纳学习：从样例中学习
- 黑箱
狭义的归纳学习：从训练数据中学得概念（很难）
- 对概念学习有所了解，有助于理解机器学习的一些基础思想
- e.g. 布尔概念学习

学习过程

在所有假设组成的空间中进行搜索的过程
搜索目标：找到与”训练集“匹配的假设 hypothesis
搜索策略

版本空间 version space

与训练集一致的假设合集

归纳偏好（模型选择）

通过学习可以找到符合样例的多个假设，什么样的假设（模型）更好

奥卡姆剃刀 Occam’s razor
- 选择偏好一种常用的、自然科学研究中最基本的原则
- 若有多个假设与观察一致，则选择最简单的那个
没有免费的午餐 No Free Lunch Theorem NFL定理
- 若考虑所有潜在的问题，则所有学习算法都一样好
- 要谈论算法的相对优劣，必须要针对具体的学习问题

第二章模型评估与选择

基本概念：经验误差与过拟合

误差：

分类问题：
- 错误率 error rate
- 精读 accuracy
回归问题：
- 误差
  - 训练误差 training error / 经验误差 empirical error
  - 泛化误差 generalization error

模型训练：

目标：使泛化误差最小
手段：使经验误差最小

过拟合与欠拟合

过拟合 overfitting
- 学习能力过于强大（专注于训练样本）
- 机器学习面临的关键障碍
- 过拟合是无法彻底避免的，我们能做的只是缓解
欠拟合 underfitting
- 学习能力低下

模型选择

模型评估是为了模型选择：选用哪一种算法，使用哪一种参数配置

目标：

评估用样本集D训练出的模型

手段：

划分训练集和测试集，使用测试集对学习器的泛化误差进行评估进而做出选择
涉及内容一：如何划分训练集和测试集（评估方法）
涉及内容二：如何评价学习器的泛化性能（性能度量）

模型评估方法

不同划分方法的区别： 如何产生训练集S和测试集T，从而评估模型不同模型评估方法
调参与最终模型

确定一个模型：
- 学习算法
- 参数配置
  - 超参数：人为设定，书中这一部分讲得是超参数的确定
  - 模型的参数：计算机训练得到
划分训练集和测试集的方式进行模型选择后，学习算法和参数配置就选定了
此时应该用数据集D重新训练模型，这个模型在训练过程中使用了所有m个样本，这才是我们最终提交给用户的模型
注意：以上所有提到的测试集都来自训练数据，其实应该被称为“验证集”，真正的测试集是模型在实际使用中遇到的数据

性能度量

模型的好坏是相对的，什么样的模型是好的，不仅取决于算法和数据，还决定于任务需求
不同任务
- 聚类：暂时不讲
- 回归：均方误差
- 分类：主要介绍
  - 二分类
  - 多分类

错误率与精度

错误率 error ：分类错误的样本数占样本总数的比例
精度 accuracy ：分类正确的样本数占样本总数的比例

查准率、查全率与F1

查准率，准确率 precision ：检索出的信息有多少是用户感兴趣的（正例），模型认为的正例中有多少是真正的正例；宁缺毋滥
查全率，召回率 recall: 有多少用户感兴趣的信息被检索出来了，真正的正例中有多少被模型认为是正例的；宁错杀不可放过
查全率和查准率是一对矛盾的度量
- P-R曲线：完全包住
- 平衡点 Break-Event Point, BEP: 查准率=查全率
- F1度量
- 在n个二分类混淆矩阵上综合考察查准率和查全率

参考资料：

《机器学习》，周志华

余舍

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
吃瓜笔记：Task01 绪论、模型评估与选择

Datawhale 2022年5月吃瓜教程 Task01所用教程：《机器学习》（周志华），《机器学习公式详解》（谢文睿，秦州）组织者学习建议：西瓜书第1章和第2章主要是讲一些基本概念和术语，大家自己看就好，不过第1章和第2章有一些知识点可以跳过不看，这些知识点在没有学过后面章节的具体机器学习算法之前较难理解，下面我将其划出来：第1章：【1.4-归纳偏好】可以跳过第2章：【2.3.3-ROC与AUC】及其以后的都可以跳过文章目录序言第一章绪论假设空间（模型建立）归纳偏好（模型选择）第.
复制链接

扫一扫