阻塞棉花糖
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
19、利用PostgresML和LightGBM加速机器学习:从客户流失预测到分布式与GPU训练
本文探讨了如何利用PostgresML和LightGBM加速机器学习任务,涵盖客户流失预测、基于Dask的分布式训练以及GPU加速技术。通过SQL直接在数据库中训练和部署模型,结合Dask实现大规模数据处理,并利用GPU显著提升训练速度,文章还介绍了相应的环境配置、最佳实践与性能优化策略,帮助开发者高效应对复杂机器学习场景。原创 2025-09-28 11:50:21 · 19 阅读 · 0 评论 -
18、基于AWS SageMaker和PostgresML的LightGBM模型MLOps实践
本文介绍了基于AWS SageMaker和PostgresML的LightGBM模型MLOps实践。通过构建端到端的机器学习管道,展示了SageMaker在数据预处理、模型训练、评估与部署方面的完整能力,并对比了PostgresML如何在数据库内直接进行模型训练与预测,减少数据移动与延迟。结合客户流失案例,详细演示了从数据加载、预处理、模型训练、超参数优化到部署和预测的全流程。文章最后对两种技术方案进行了对比,帮助读者根据业务需求选择合适的技术路径。原创 2025-09-27 16:48:25 · 16 阅读 · 0 评论 -
17、使用 AWS SageMaker 构建 LightGBM MLOps 管道
本文详细介绍如何使用 AWS SageMaker 构建一个完整的 LightGBM MLOps 管道,涵盖从数据预处理、模型训练与调优、模型评估、偏差与可解释性分析,到模型注册、验证、部署及持续监控的全流程。通过代码示例和流程图,帮助用户实现自动化机器学习工作流,提升模型开发与运维效率。原创 2025-09-26 16:53:55 · 16 阅读 · 0 评论 -
16、客户流失预测ML管道部署与AWS SageMaker实践
本文详细介绍了客户流失预测机器学习管道的构建与部署实践,涵盖在Google Cloud Run上部署容器化API以及利用AWS SageMaker实现端到端ML流程。内容包括数据预处理、基于LightGBM的模型训练与自动调优、模型评估、SageMaker Clarify与SHAP在偏差检测和模型可解释性中的应用,以及模型注册与Lambda部署。通过结合AWS核心服务与SageMaker高级功能,展示了如何构建安全、可扩展、可解释的生产级ML系统。原创 2025-09-25 15:12:48 · 14 阅读 · 0 评论 -
15、基于LightGBM的机器学习管道与MLOps实践
本文详细介绍了基于LightGBM的机器学习管道构建与MLOps实践,涵盖从数据预处理、模型训练到API构建、安全保障及容器化部署的完整流程。通过电信客户流失预测案例,展示了如何使用scikit-learn、FLAML、FastAPI和Docker实现高效、可重复、易维护的机器学习解决方案,并深入分析了MLOps各环节的重要性、实战注意事项及未来发展趋势,为机器学习项目的工程化落地提供全面指导。原创 2025-09-24 14:45:45 · 12 阅读 · 0 评论 -
14、自动化机器学习:从 FLAML 到机器学习管道的全面探索
本文深入探讨了自动化机器学习工具FLAML及其核心优化算法CFO和BlendSearch,通过风力涡轮机数据集的案例展示了模型选择与调优的实际应用。同时介绍了基于Featuretools的自动化特征工程、使用scikit-learn构建机器学习管道的方法,以及MLOps在模型部署中的实践。文章还分析了自动化与手动调优的平衡、模型可解释性挑战及数据质量的重要性,并展望了AutoML未来的发展趋势,为高效开发和部署机器学习模型提供了全面指导。原创 2025-09-23 14:17:34 · 14 阅读 · 0 评论 -
13、使用LightGBM和FLAML解决数据科学问题
本文介绍了如何使用LightGBM和FLAML解决数据科学中的信用评分分类问题。涵盖了从数据清洗、探索性数据分析、处理类别不平衡,到模型训练、调优与部署的完整流程。文章对比了决策树、随机森林和LightGBM的性能,展示了FLAML在自动化模型选择与超参数优化中的高效性,并结合Featuretools实现自动特征工程。通过案例研究和实践建议,阐明了在真实场景中应用这些工具的最佳策略,帮助数据科学家提升建模效率与模型性能。原创 2025-09-22 13:47:32 · 17 阅读 · 0 评论 -
12、使用 LightGBM 解决现实世界的数据科学问题
本文通过两个实际案例详细介绍了如何使用 LightGBM 解决现实世界的数据科学问题。第一个案例是预测风力涡轮机发电量,涵盖数据探索、模型选择、目标泄漏识别与处理、参数调优及模型部署;第二个案例是对个人信用评分进行分类,涉及数据清洗、特征编码、模型训练与优化。文章总结了使用 LightGBM 的完整流程,包括问题定义、数据准备、建模、调优、部署和结果沟通,并强调了各环节的关键注意事项,为解决复杂数据问题提供了系统性指导。原创 2025-09-21 12:02:12 · 19 阅读 · 0 评论 -
11、利用LightGBM解决现实世界的数据科学问题
本文通过一个预测风力涡轮机发电功率的案例研究,系统地展示了利用LightGBM解决现实世界数据科学问题的完整流程。内容涵盖数据科学生命周期的各个关键步骤,包括问题定义、数据收集与清洗、特征工程、探索性数据分析、模型选择与训练、评估调优、部署及监控。重点介绍了如何处理异常值、缺失值和测量误差,并使用LightGBM进行高效建模,最终实现高精度的功率预测。该研究为工业级预测建模提供了可复用的方法论和实践指导。原创 2025-09-20 11:18:23 · 14 阅读 · 0 评论 -
10、Optuna与LightGBM:超参数优化与实际应用
本文深入探讨了Optuna与LightGBM在超参数优化中的结合应用,详细介绍了TPE和CMA-ES两种优化算法的原理及对比,分析了中位数剪枝、逐次减半与Hyperband等剪枝策略的效果。通过客户流失预测、风力发电机发电量预测和个人信用评分分类三个实际案例,展示了如何利用Optuna优化LightGBM模型,并遵循数据科学生命周期完成从问题定义到建模报告的全流程。文中还提供了目标函数定义、多目标优化、参数重要性可视化及研究保存恢复等高级功能的实现方法,帮助读者高效构建高性能机器学习模型。原创 2025-09-19 12:30:20 · 17 阅读 · 0 评论 -
9、机器学习模型对比与Optuna参数优化
本文对比了LightGBM、XGBoost和TabTransformer在Census Income和Credit Card Fraud两个数据集上的性能,结果显示LightGBM和XGBoost在准确率和F1分数上表现相近,且LightGBM训练速度更快。深度学习模型TabTransformer在测试中表现较差,尤其在不平衡数据上F1分数低。文章进一步介绍了使用Optuna进行高效超参数优化的方法,包括其优势、TPE和CMA-ES算法原理,并通过代码示例展示了如何结合Optuna优化LightGBM模型,原创 2025-09-18 11:46:33 · 15 阅读 · 0 评论 -
8、LightGBM、XGBoost与深度学习的比较
本文深入比较了LightGBM、XGBoost和TabTransformers在处理表格数据时的性能差异。从模型复杂度、数据预处理、训练速度、准确性和适用场景等多个维度进行分析,并通过人口普查收入预测和森林覆盖类型预测两个实际案例展示了三种方法的实现与表现。文章还提供了选择合适模型的决策流程图,帮助读者根据数据规模、计算资源和业务需求做出最优选择。原创 2025-09-17 11:27:47 · 8 阅读 · 0 评论 -
7、LightGBM在Python中的应用:从基础到实战
本文介绍了LightGBM在Python中的应用,涵盖其性能优势、scikit-learn API的使用方法、关键建模概念(如交叉验证与参数优化),并通过预测学生学业成功的实战案例展示了从数据探索、预处理到模型训练与评估的完整流程。结果表明,LightGBM在准确率和训练速度上均优于传统算法,是高效构建梯度提升模型的优选工具。原创 2025-09-16 13:26:46 · 12 阅读 · 0 评论 -
6、Python 中 LightGBM 概述
本文全面介绍了Python中LightGBM的原理、优化技术及实际应用。内容涵盖LightGBM的核心优势,如基于直方图的采样、排他特征捆绑(EFB)、基于梯度的单边采样(GOSS)和叶优先树生长等性能优化方法,并详细解析了关键超参数设置与模型调优策略。文章还展示了标准API、scikit-learn API和Dask API的特点及使用场景,结合代码示例说明了多分类任务的完整流程,并提供了数据预处理、过拟合控制和模型评估的实际建议,帮助用户高效应用LightGBM解决大数据集与高维特征下的机器学习问题。原创 2025-09-15 10:20:11 · 12 阅读 · 0 评论 -
5、梯度提升决策树与LightGBM:原理、应用与优化
本文深入探讨了梯度提升决策树(GBDT)与LightGBM的原理、应用与优化方法。从装袋法到提升法,详细介绍了决策树集成学习中的关键算法,包括随机森林、ExtraTrees和GBDT,并通过实例演示了梯度提升在回归与分类问题中的实现过程。文章还分析了传统GBDT在训练效率上的不足,引出LightGBM框架的优势,展示了其在速度、内存占用和准确率方面的显著提升。结合Python代码示例,涵盖了LightGBM的安装、建模流程、交叉验证与参数优化技术,并介绍了DART算法对过拟合的改善作用,全面呈现了现代梯度提原创 2025-09-14 15:52:02 · 12 阅读 · 0 评论 -
4、机器学习中的决策树与集成学习
本文深入探讨了机器学习中的决策树与集成学习方法。首先介绍了决策树的基本原理,包括信息增益、熵、Gini指数以及C4.5和CART算法,并讨论了其易过拟合的问题及应对策略。随后详细阐述了集成学习的核心思想与常见方法,如Bagging、Boosting、Stacking和Blending,重点讲解了随机森林、极度随机树和梯度提升决策树(GBDTs)的原理与应用。文章还通过scikit-learn代码示例展示了各类模型的实际使用,并对比了不同集成方法的特点与适用场景,最后提供了实践建议,帮助读者在真实项目中有效应原创 2025-09-13 12:12:59 · 9 阅读 · 0 评论 -
3、机器学习模型、数据集与监督学习入门
本文深入介绍了机器学习中的核心概念,包括模型、数据集与监督学习的基本原理。内容涵盖防止过拟合的方法(如正则化和集成方法)、监督学习的分类与回归任务、常用性能评估指标(如准确率、精确率、召回率、F1分数、MSE、MAE),并通过销售数据示例演示了线性回归的手动拟合与scikit-learn实现。同时,文章详细讲解了决策树的学习机制、优缺点、熵与信息增益的数学原理,并提供了基于鸢尾花数据集的决策树构建代码。最后总结了不同模型的特点与适用场景,帮助读者建立对机器学习基础的系统性理解。原创 2025-09-12 14:02:12 · 11 阅读 · 0 评论 -
2、机器学习入门与基础概念解析
本文系统介绍了机器学习的基础概念与核心原理,涵盖监督学习、无监督学习和强化学习三种主要范式及其应用场景。文章详细解析了模型定义、参数与超参数的区别、数据准备流程、过拟合与泛化的概念,并强调了数据质量对模型性能的重要影响。通过对比传统编程与机器学习的差异,帮助读者理解其优势。同时提供了模型训练与评估的关键要点,旨在为初学者构建完整的机器学习知识框架,并指导实际应用中的最佳实践。原创 2025-09-11 09:17:44 · 9 阅读 · 0 评论 -
1、利用 LightGBM 和 Python 进行机器学习实践
本文深入探讨了如何利用 LightGBM 和 Python 进行机器学习实践,涵盖从基础概念到高级应用的完整流程。内容包括机器学习入门、集成学习方法(如装袋与提升)、LightGBM 与 XGBoost 的对比及优化,以及使用 Optuna 和 FLAML 实现自动化超参数调优。同时介绍了 MLOps 流程、模型部署、AWS SageMaker 与 PostgresML 集成、分布式计算(Dask)和 GPU 加速训练等前沿技术。通过丰富的代码示例和实际案例,帮助读者掌握高效构建、优化和部署机器学习模型的关原创 2025-09-10 09:58:16 · 19 阅读 · 0 评论