学习科大讯飞的StatQuest机器学习课笔记（1）_statquest机器学习图解指南-CSDN博客

本文链接：https://blog.csdn.net/huanggang982/article/details/107346468

本文深入探讨了机器学习的基本概念，包括训练数据、测试数据、交叉验证、混淆矩阵、敏感性和特异性等关键主题，旨在帮助读者理解如何评估和选择合适的机器学习方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

简介
1.机器学习都是关于作出预测和分类的。
2.原始数据被称为训练数据，使用测试数据来评估机器学习方法，不要被机器学习方法与训练数据的匹配程度所愚弄。
3.对训练数据拟合效果好，但预测效果不佳，这种现象称为“偏差-方差权衡”。
4.机器学习最重要的是通过测试数据来决定哪种方法最适合我们的需求。
交叉验证
1.交叉验证可以比较不同的机器学习方法，并了解他们在实际工作中的作用。
2.估计机器学习方法中的参数——参数估计称为训练算法。
3.评估机器学习方法的工作效果——测试算法。
4.将测试数据分成4份(四折交叉验证),其中三份用于训练算法，剩下的一份用于测试算法。
5.留一交叉验证——只留一份用于测试，其他用于训练。
6.十折交叉验证——可以用来帮助找到调优参数的最佳值
混淆矩阵
1.混淆矩阵的每一行对应于机器学习方法预测的内容，每一列对应于已知的事实。
2.真阳性(TP)：事实为真，预测也为真；真阴性(TN)：事实为假，预测也为假；假阴性(FN)：事实为真，预测却为假；假阳性(FP)：事实为假，预测却为真。
3.混淆矩阵的规模取决于我们想要预测的结果的维度。
4.通过混淆矩阵可以知道机器学习方法哪里做对了，哪里做错了。
敏感性和特异性
1.敏感性(正向识别率)：正确识别出为真的百分比=TP/(TP+FN);
2.特异性(反向识别率)：正确识别出为假的百分比=TN/(TN+FP);
3.通过比较不同机器学习方法的敏感性和特异性，可以帮助我们选择最适合数据的机器学习方法，如果正确识别阳性对数据最重要，应该选择敏感性更高的方法。如果正确识别阴性对数据最重要，应该选择特异性更高的方法。
偏差和方差
1.方差：不同数据集经拟合得出的差异。
2.在机器学习中，理想算法偏差小，可以精确的模拟真实关系，且不同数据集之间的预测结果一致，可变性较低。
3.在简单模型和复杂模型之间找到最佳点，通常有三种方法：归一化(regularization)，提升(boosting)，装袋(bagging)。