《Python机器学习——预测分析核心算法》笔记

本文是《Python机器学习——预测分析核心算法》的笔记,重点介绍了惩罚线性回归方法,如LASSO、岭回归,探讨了它们在克服过拟合、处理大规模数据和提供快速预测上的优势。还提到了集成方法,如取平均或投票的策略,以及如何在特征工程阶段使用惩罚线性模型。此外,文章讨论了构建预测模型的流程、选择模型的依据,以及如何平衡性能、复杂性和数据规模。
摘要由CSDN通过智能技术生成

本文是《Python机器学习——预测分析核心算法》截止到第五章的读后笔记,主要涉及惩罚线性回归方法。后续会更新第六、七两章关于集成方法的学习笔记。

第一章 关于预测的两类核心算法

什么是惩罚回归方法?

惩罚线性回归方法是由普通最小二乘法衍生出来的。它设计之初的想法就是要克服最小二乘法可能会带来的过拟合问题。如下图所示:

    上面的大图中,图1-1是基于六个点利用最小二乘法拟合出的预测直线;图1-2是基于六个点中的两个点利用最小二乘法拟合出的预测直线。使用两个点来拟合一条直线的主要问题是针对直线的自由度,没有提供足够多的数据。一条直线有两个自由度,两个自由度意味着要有两个独立的参数才能唯一确定一条直线。当自由度与点数相同时,预测效果并不是很好。连接这些点构成了直线,但是在不同点对之间可以形成大量不同的直线。对在自由度与点数相同的情况下所做的预测并不能报太大的信心。图1-1是6个点拟合一条直线,也就是说6个点对应两个自由度。从大量的人类基因中找到可致遗传基因的问题可以阐明相似的道理:例如要从20000个人类基因中找到可致遗传的基因,可选择的基因越多,需要的数据就越多。20000个不同基因就代表20000个自由度,甚至从20000个人中获取的数据都不足以得到可靠的结果,在很多情况下,一个预算相对合理的研究项目只能负担起大约500个人的样本数据。在这种情况下,惩罚线性回归就是最佳的选择了。所谓惩罚线性回归就是在计算线性回归的代价函数时,向代价函数中加入惩罚项作为代价函数额外的约束条件。常见的惩罚线性回归方法有LASSO回归、岭回归、Elastic Net回归等。惩罚线性回归可以减少自由度使之与数据规模、问题的复杂度相匹配。对于有大量自由度的问题,惩罚线性回归方法得到了广泛的应用。

什么是集成方法?

    集成方法的基本思想是构建多个不同的预测模型,然后将其输出做某种组合作为最终的输出,如取平均值或采用多数人的意见(投票)。单个预测模型叫做基学习器。计算学习理论的研究结果证明只要基学习器比随机猜测稍微好些(如果独立预测模型的数目足够多),那么集成方法就可以达到相当好的效果。

算法的选择(集成与惩罚线性回归)

    惩罚线性回归的优势在于训练速度非常快。大规模数据集的训练时间可以是小时、天、甚至是几周。要获得一个可以部署的解决方案往往需要进行多次训练。过长的训练时间会影响大规模数据问题的解决进度及其部署。训练所需的时间当然越短越好࿰

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值