吃瓜教程task01

最新推荐文章于 2023-01-17 22:56:45 发布

m0_50508646

最新推荐文章于 2023-01-17 22:56:45 发布

阅读量78

点赞数

本文链接：https://blog.csdn.net/m0_50508646/article/details/128716704

版权

Task01:概览西瓜书+南瓜书第一、二章

通过第一章的学习，了解了如下概念

机器学习的流程：将收集的样本按照8：2的比例分为训练样本和测试样本，再选择某个机器学习的算法，使其再训练集上学习，产生模型，最后用测试集测试模型的效果如何。
机器学习的目标：让模型更好地适用于新样本，具备“泛化”能力。
版本空间就是与训练集一致的所有假设所构成的集合，也就是假设空间的一个最大的子集。
归纳偏好：机器学习算法在学习过程中对某种类型假设的偏好。NFL定理告诉我们：脱离某一个具体问题，空谈什么算法最优，就等价于随机胡猜，是毫无意义的，必须要针对具体的学习问题，探究该算法的归纳偏好是否与问题匹配。

通过第二章的学习，有如下收获：

过拟合与欠拟合：过拟合是机器学习能力太强，以至于将训练样本的自身特点当作了所有潜在样本都会具有的一般性质；欠拟合是机器学习能力太弱，对训练样本的一般性质尚未学好。
经验误差与泛化误差：经验误差指学习器在训练集上的误差，又称为“训练误差”；泛化误差指学习器在新样本上的误差。
评估方法：留出法、交叉验证法、自助法。
留出法：留出法直接将数据集D划分为两个互斥的集合，其中一个集合作为训练集S，另一个作为测试集T，在S上训练出模型后，用T来评估其测试误差，作为对泛化误差的估计。在划分训练集和测试集时，需要尽可能保持数据分布的一致性，可采取分层抽样，但无法避免的是，当T比较小时，结果可能不够稳定准确。
交叉验证法：将数据集D划分为k个大小相似的互斥子集，每个子集都是从D中通过分层采样获得的，每次用k-1个子集的并集作为训练集，余下的子集作为测试集，这样就可以获得k组训练/测试集，从而可以进行k次训练和测试，最终返回的是k个测试结果的均值。交叉验证法常用来对比同一算法的不同参数配置之间的效果，对比不同算法之间的效果。
自助法：以自助取样法为基础。
调参：一般通过对每一个参数选定一个范围和变化步长