Task01 打卡西瓜书南瓜书第一二章

时迁Tiam

于 2024-09-18 13:47:46 发布

阅读量271

点赞数 6

文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/m0_74851616/article/details/142330891

版权

第一章绪论

基本概念：
- 机器学习：研究计算机从数据中产生“模型”的算法——“学习算法”。
- 深度学习：指神经网络类算法，是机器学习的一个子集。
- 算法：从数据中学习得出模型的具体方法。
- 模型：算法产出的结果，通常是具体的函数或可抽象看作函数。
- 假设：学得模型对应了关于数据的某种潜在的规律。
- 真相：潜在规律自身。
基本术语：
- 数据集：样本的集合。
- 样本（示例）：一个事件或对象的描述。
- 属性（特征）：反映事件或对象在某方面表现或性质的事项。
- 属性值：属性的取值。
- 属性空间（样本空间、输入空间）：属性张成的空间。
- 特征向量：属性空间中的每一个点对应一个坐标向量。
- 学习（训练）：从数据中学得模型的过程。
- 训练数据：训练过程中使用的数据。
- 标记（label）：示例结果的信息。
- 监督学习：训练数据有标记信息——分类、回归是代表。
- 无监督学习：训练数据没有标记信息——聚类是代表。
发展历史：
- 从20世纪50年代到21世纪，机器学习经历了从推理期、知识期、符号主义学习、连接主义学习到统计学习的发展过程，并最终迎来了深度学习的崛起。
NFL定理：
- 机器学习算法没有免费的午餐（No Free Lunch Theorem），即众算法生而平等，要谈论算法的具体优劣，必须要针对具体的学习问题。

第二章模型评估与选择

经验误差与过拟合：
- 错误率：分类错误的样本数占样本总数的比例。
- 精度：1-错误率。
- 误差：预测值与真实值之间的差异。
- 训练误差（经验误差）：学习器在训练集上的误差。
- 过拟合：学习器过于复杂，把训练样本自身的一些特点当做了所有潜在样本都会有的一般性质，导致泛化误差大。
- 欠拟合：学习器过于简单，对训练样本的一般性质尚未学好，训练误差和泛化误差都很大。
评估方法：
- 留出法：直接将数据集划分为训练集和测试集，用测试集评估模型的误差。
- 交叉验证法：将数据集划分为k个大小相似的互斥子集，进行k次训练和测试，最终返回k个测试结果的均值。
- 自助法：通过自助采样法产生训练集和测试集，用于模型评估。
性能度量：
- 错误率和精度：适用于二分类和多分类任务。
- 查准率、查全率、F1：分类任务中常用的性能度量。
- P-R曲线：将样本依据其是正例的可能性依次将其作为正例计算出查全率和查准率，绘制出的曲线。
- 平衡点（BEP）：查全率=查准率时的取值。
- F1：查准率和查全率的调和平均。

第一章首先为我们勾勒了机器学习的全貌，从基本概念、发展历程到当前的研究热点，让我对机器学习这一领域有了整体的认识。这种宏观视角的建立。

第二章详细介绍了模型评估的几种基本方法，包括留出法、交叉验证法和自助法。这些方法不仅为我提供了评估模型性能的工具，还让我理解了不同方法之间的优缺点和适用场景。理解了过拟合与欠拟合的概念，本章还介绍了多种性能度量指标，如错误率、精度、查准率、查全率、F1分数等。这些指标为我提供了评估模型性能的多维度视角，使我能够更全面地了解模型的优缺点，并据此进行有针对性的优化。