《Python机器学习——预测分析核心算法》笔记

最新推荐文章于 2024-07-18 15:30:34 发布

Backcanhave7

最新推荐文章于 2024-07-18 15:30:34 发布

阅读量3.5k

点赞数 4

分类专栏：机器学习文章标签：预测分析惩罚线性回归

本文链接：https://blog.csdn.net/qq_41080850/article/details/87795673

版权

本文是《Python机器学习——预测分析核心算法》的笔记，重点介绍了惩罚线性回归方法，如LASSO、岭回归，探讨了它们在克服过拟合、处理大规模数据和提供快速预测上的优势。还提到了集成方法，如取平均或投票的策略，以及如何在特征工程阶段使用惩罚线性模型。此外，文章讨论了构建预测模型的流程、选择模型的依据，以及如何平衡性能、复杂性和数据规模。

摘要由CSDN通过智能技术生成

本文是《Python机器学习——预测分析核心算法》截止到第五章的读后笔记，主要涉及惩罚线性回归方法。后续会更新第六、七两章关于集成方法的学习笔记。

第一章关于预测的两类核心算法

什么是惩罚回归方法？

惩罚线性回归方法是由普通最小二乘法衍生出来的。它设计之初的想法就是要克服最小二乘法可能会带来的过拟合问题。如下图所示：

上面的大图中，图1-1是基于六个点利用最小二乘法拟合出的预测直线；图1-2是基于六个点中的两个点利用最小二乘法拟合出的预测直线。使用两个点来拟合一条直线的主要问题是针对直线的自由度，没有提供足够多的数据。一条直线有两个自由度，两个自由度意味着要有两个独立的参数才能唯一确定一条直线。当自由度与点数相同时，预测效果并不是很好。连接这些点构成了直线，但是在不同点对之间可以形成大量不同的直线。对在自由度与点数相同的情况下所做的预测并不能报太大的信心。图1-1是6个点拟合一条直线，也就是说6个点对应两个自由度。从大量的人类基因中找到可致遗传基因的问题可以阐明相似的道理：例如要从20000个人类基因中找到可致遗传的基因，可选择的基因越多，需要的数据就越多。20000个不同基因就代表20000个自由度，甚至从20000个人中获取的数据都不足以得到可靠的结果，在很多情况下，一个预算相对合理的研究项目只能负担起大约500个人的样本数据。在这种情况下，惩罚线性回归就是最佳的选择了。所谓惩罚线性回归就是在计算线性回归的代价函数时，向代价函数中加入惩罚项作为代价函数额外的约束条件。常见的惩罚线性回归方法有LASSO回归、岭回归、Elastic Net回归等。惩罚线性回归可以减少自由度使之与数据规模、问题的复杂度相匹配。对于有大量自由度的问题，惩罚线性回归方法得到了广泛的应用。

什么是集成方法？

集成方法的基本思想是构建多个不同的预测模型，然后将其输出做某种组合作为最终的输出，如取平均值或采用多数人的意见(投票)。单个预测模型叫做基学习器。计算学习理论的研究结果证明只要基学习器比随机猜测稍微好些(如果独立预测模型的数目足够多)，那么集成方法就可以达到相当好的效果。

算法的选择(集成与惩罚线性回归)

惩罚线性回归的优势在于训练速度非常快。大规模数据集的训练时间可以是小时、天、甚至是几周。要获得一个可以部署的解决方案往往需要进行多次训练。过长的训练时间会影响大规模数据问题的解决进度及其部署。训练所需的时间当然越短越好࿰