- Datawhale 2022年5月 吃瓜教程 Task01
- 所用教程:《机器学习》(周志华), 《机器学习公式详解》(谢文睿,秦州)
组织者学习建议:
西瓜书第1章和第2章主要是讲一些基本概念和术语,大家自己看就好,不过第1章和第2章有一些知识点可以跳过不看,这些知识点在没有学过后面章节的具体机器学习算法之前较难理解,下面我将其划出来:
第1章:【1.4-归纳偏好】可以跳过
第2章:【2.3.3-ROC与AUC】及其以后的都可以跳过
一张理解图
序言
- 统计机器学习算法都是基于样本数据独立同分布的假设
第一章 绪论
引言:
- 什么是机器学习:
- 如何通过计算的手段,利用经验来改善系统自身的性能
基本术语:略
发展历程:略
应用现状:略
假设空间(模型建立)
机器学习是归纳学习 inductive learning
- 广义的归纳学习:从样例中学习
- 黑箱
- 狭义的归纳学习:从训练数据中学得概念(很难)
- 对概念学习有所了解,有助于理解机器学习的一些基础思想
- e.g. 布尔概念学习
学习过程
- 在所有假设组成的空间中进行搜索的过程
- 搜索目标:找到与”训练集“匹配的假设 hypothesis
- 搜索策略
版本空间 version space
- 与训练集一致的假设合集
归纳偏好(模型选择)
通过学习可以找到符合样例的多个假设,什么样的假设(模型)更好
- 奥卡姆剃刀 Occam’s razor
- 选择偏好一种常用的、自然科学研究中最基本的原则
- 若有多个假设与观察一致,则选择最简单的那个
- 没有免费的午餐 No Free Lunch Theorem NFL定理
- 若考虑所有潜在的问题,则所有学习算法都一样好
- 要谈论算法的相对优劣,必须要针对具体的学习问题
第二章 模型评估与选择
基本概念:经验误差与过拟合
误差:
- 分类问题:
- 错误率 error rate
- 精读 accuracy
- 回归问题:
- 误差
- 训练误差 training error / 经验误差 empirical error
- 泛化误差 generalization error
- 误差
模型训练:
- 目标:使泛化误差最小
- 手段:使经验误差最小
过拟合与欠拟合
- 过拟合 overfitting
- 学习能力过于强大(专注于训练样本)
- 机器学习面临的关键障碍
- 过拟合是无法彻底避免的,我们能做的只是缓解
- 欠拟合 underfitting
- 学习能力低下
模型选择
模型评估是为了模型选择:选用哪一种算法,使用哪一种参数配置
目标:
- 评估用样本集D训练出的模型
手段:
- 划分训练集和测试集,使用测试集对学习器的泛化误差进行评估进而做出选择
- 涉及内容一:如何划分训练集和测试集(评估方法)
- 涉及内容二:如何评价学习器的泛化性能(性能度量)
模型评估方法
不同划分方法的区别: 如何产生训练集S和测试集T,从而评估模型
调参与最终模型
- 确定一个模型:
- 学习算法
- 参数配置
- 超参数:人为设定,书中这一部分讲得是超参数的确定
- 模型的参数:计算机训练得到
- 划分训练集和测试集的方式进行模型选择后,学习算法和参数配置就选定了
- 此时应该用数据集D重新训练模型,这个模型在训练过程中使用了所有m个样本,这才是我们最终提交给用户的模型
- 注意:以上所有提到的测试集都来自训练数据,其实应该被称为“验证集”,真正的测试集是模型在实际使用中遇到的数据
性能度量
- 模型的好坏是相对的,什么样的模型是好的,不仅取决于算法和数据,还决定于任务需求
- 不同任务
- 聚类:暂时不讲
- 回归:均方误差
- 分类:主要介绍
- 二分类
- 多分类
错误率与精度
- 错误率 error :分类错误的样本数占样本总数的比例
- 精度 accuracy :分类正确的样本数占样本总数的比例
查准率、查全率与F1
- 查准率,准确率 precision :检索出的信息有多少是用户感兴趣的(正例),模型认为的正例中有多少是真正的正例;宁缺毋滥
- 查全率,召回率 recall: 有多少用户感兴趣的信息被检索出来了,真正的正例中有多少被模型认为是正例的;宁错杀不可放过
- 查全率和查准率是一对矛盾的度量
- P-R曲线:完全包住
- 平衡点 Break-Event Point, BEP: 查准率=查全率
- F1度量
- 在n个二分类混淆矩阵上综合考察查准率和查全率
参考资料:
- 《机器学习》,周志华