学习吃瓜教程1-2章总结-CSDN博客

本文链接：https://blog.csdn.net/m0_62557756/article/details/137862755

本文介绍了机器学习的基本概念，包括从数据中总结经验的模型、监督学习与无监督学习的分类、没有免费午餐定理，以及模型评估的方法如错误率、精度、误差、经验误差和泛化误差。重点讲解了混淆矩阵、准确率、召回率、P-R图、F1度量和ROC曲线等性能度量，并提到比较学习器性能的统计假设检验和交叉验证方法。

摘要由CSDN通过智能技术生成

1、机器学习的概念

机器学习研究的主要内容是：从计算机的数据中不断总结，总结出自己的“经验”（模型），当遇到一个新的样本时，运用这总结的“经验”从而得出相应的结论的过程。

教程中的这个举例非常好：“经验”是f,新样本是x，得到的结论或预测结果是f(x)，让其再与真实值进行比较，判断这个总结的“经验”的好坏。

2、机器学习分类

机器学习大致划分为两大类：“监督学习”：分类和回归； “无监督学习”：聚类

详细一些是：

3、“没有免费的午餐”定理

无论学习算法A多聪明，无论学习算法B多笨拙，他们的期望性能都相同！

定理最重要的寓意是：要谈论算法的相对优劣，必须要针对具体的学习问题，不然毫无意义

4、模型评估和选择

当我们总结出了相应的模型，那么如何去知道这个模型的效果怎么样，这个模型对处理问题的能力如何，就必须进行模型的评估；而且可以总结出多种模型，就要进行模型的选择。

5、几个概念

错误率：错误样本占样本总数的比例

精度：1-错误率

误差：预测值与样本真实值的差异

经验误差（训练误差）：学习器在训练集上的误差

泛化误差：训练好的学习器在新样本上的误差（后续的评估都是用测试误差近似泛化误差）

6、评估方法

留出法：将数据集划分成两个互斥的集合，通常是2/3~4/5用作训练集，剩余用作测试集

交叉验证法：南瓜书中说法很好，本质是进行多次留出法，因为一次留出不够置信

自助法：一个数据集D，包含m个样本，一个空数据集D’，每次随机取出D中的一个样本拷贝到D’，重复m次，得到m个样本数据集D’。（在数据集较小、难以有效划分训练/测试集时很有用；能从初始数据集中产生多个不同的训练集,这对集成学习等方法有很大的好处）

7、性能度量

混淆矩阵：混淆矩阵（Confusion Matrix），也称为错误矩阵，是一种特别适用于监督学习的评估分类模型性能的工具，特别是在分类问题中用来可视化算法性能的表格布局。混淆矩阵以表格形式显示了实际类别与模型预测类别的关系。对于二元分类问题，混淆矩阵是一个2x2的表格，而对于多类别问题，则是一个nxn的表格，其中n是类别的数量。
以下是一个二元分类问题的混淆矩阵的示例：

**TP（真正例，True Positive）**：模型正确预测到的正类。
**FN（假反例，False Negative）**：模型错误预测为负类的正类。
**FP（假正例，False Positive）**：模型错误预测为正类的负类。
**TN（真反例，True Negative）**：模型正确预测到的负类。