kaggle
文章平均质量分 94
cndrip
这个作者很懒,什么都没留下…
展开
-
【Kaggle】练习赛《有毒蘑菇的二分类预测》(下)
本篇 《有毒蘑菇的二分类预测》对数据集进行EDA,根据实际情况,用特征工程的方法,删除频次低的数据和缺失值多的列,同时用one-hot对原先的21个特征扩展成118个特征,再用深度学习的方法进行建模取得较好的成绩。原创 2024-08-25 17:21:24 · 778 阅读 · 0 评论 -
【Kaggle】练习赛《有毒蘑菇的二分类预测》(上)
本篇文章介绍的是Kaggle月赛《有毒蘑菇的二分类预测》。比赛的数据集有大量的缺失值,本期用两篇文章用不同的方法来处理这些缺失值,并使用和Pipeline技术,来提升处理数据的能力,简化操作步骤。原创 2024-08-25 15:37:03 · 978 阅读 · 0 评论 -
【Kaggle】练习赛《保险交叉销售的二分类预测》
本篇文章介绍的是Kaggle月赛《保险交叉销售的二元分类预测》。由于该数据集庞大并且不平衡性,使用传统的方法很难达到预期效果,本采用优化读取,减少内存使用量,对不平衡数据特殊的欠采样、过采样等不同方式进行训练和评估,最终采用多模型融合的方式,取得了0.89065的好成绩。原创 2024-07-14 19:42:07 · 827 阅读 · 2 评论 -
【Kaggle】练习赛《洪水数据集的回归预测》(下)
本篇介绍了该数据集非常特殊之处,各特征都非常类似,没有特别之处,各特征之间的相关系数几乎为零。同时,各类模型不敏感,最理想的模型居然是线性回归,决定系数R2R^2R2,也只有 0.846。对这样的一个问题,我们如何突破呢?写这篇文章的初衷,是为了一种思维的突破,改变原先常规的特征基础,选用统计量作为特征,这是我在以往所没有碰到过的,基于这一点,拿来分享给大家。原创 2024-05-05 17:31:11 · 1763 阅读 · 2 评论 -
【Kaggle】练习赛《洪水数据集的回归预测》(上)
本期是2024年5月份的题目《洪水数据集的回归预测》,发现与我之前参与的题目不一样,颠覆了我的认知,使我重认识机器学习的魅力。用大量的可视化的图,来展示这个数据集特征的特点和属性,从中发现这些特征的不同之处。由此引入一个新的问题,在此基础上进行突破。原创 2024-05-05 17:29:06 · 2884 阅读 · 6 评论 -
【Kaggle】练习赛《鲍鱼年龄预测》(下)
本文在上篇《鲍鱼年龄预测》用 optuna 对四个不同模型优化参数,最终用融合的方式,完成这份赛题。原创 2024-04-08 07:45:00 · 887 阅读 · 1 评论 -
【Kaggle】练习赛《鲍鱼年龄预测》(上)
本文是Kaggle月度练习赛的一个回归的赛题,本期是2024年4月份的题目《Regression with an Abalone Dataset》即《鲍鱼年龄预测》,本篇着重 讲解数据探索( EDA) 方面,下篇讲解 建模优化方面。🚀 在这个激动人心的探索中,我们深入了解鲍鱼生物学的迷人世界。我们的使命?利用先进的机器学习技术,根据鲍鱼的身体测量结果预测鲍鱼的年龄。原创 2024-04-06 21:25:12 · 1539 阅读 · 0 评论 -
【Kaggle】练习赛《肥胖风险的多类别预测》
作为机器学习的初学者,Kaggle提供了一个很好的练习和学习平台,其中有一个栏目《PLAYGROUND》,可以理解为游乐场系列赛,提供有趣、平易近人的数据集,以练习他们的机器学习技能,并每个月都会有一场比赛。非常适合新手学习的机会,同时会有大量的高手分享其代码,本期是2024年2月份的题目《Multi-Class Prediction of Obesity Risk》即《肥胖风险的多类别预测》,在此我分享在这个比赛过程的点点滴滴。原创 2024-03-07 19:36:16 · 3841 阅读 · 15 评论 -
【机器学习可解释性】5.SHAP值的高级使用
排列重要性非常重要,因为它创建了简单的数字度量来查看哪些特征对模型重要。这有助于我们轻松地比较特性,并且您可以向非技术人员展示结果图。但它并没有告诉你每个特性的重要性。如果一个特征具有中等排列重要性,那可能意味着它具有中等排列重要性对一些预测有很大影响,但总体上没有影响,或者所有预测的中等效应SHAP总结图可以让我们鸟瞰特征的重要性和驱动因素。我们将浏览一个足球数据的示例图:这张图由许多点组成。垂直位置显示它所描绘的特征颜色显示该特征在数据集的那一行中是高还是低。原创 2023-10-29 20:02:35 · 6349 阅读 · 7 评论 -
【机器学习可解释性】4.SHAP 值
SHAP 值 (SHapley Additive exPlanations的首字母缩写)对预测进行分解,以显示每个特征的影响。你可以在哪里使用这个?一个模型说,银行不应该借钱给某人,法律要求银行解释每笔拒绝贷款的依据医疗保健提供者想要确定是什么因素导致每个病人患某种疾病的风险,这样他们就可以通过有针对性的健康干预措施直接解决这些风险因素在本次课程中,您将使用SHAP 值 来解释单个预测。原创 2023-10-28 20:33:33 · 3637 阅读 · 2 评论 -
【机器学习可解释性】3.部分依赖图
部分依赖图 --每个特征怎么样影响预测结果?像排列重要性一样,部分依赖图是在模型拟合后计算的。我们将使用拟合模型来预测我们的结果(他们的球员赢得“全场最佳球员”的概率)。但是我们**反复改变一个变量的值**来做出一系列的预测。如果球队只有40%的控球率,我们就能预测结果。然后我们预测,他们有50%的几率拿球,然后再预测60%,等等...... 我们追踪预测结果(在纵轴上),当我们从小的控球值移动到大的值(在横轴上)。除了一维的图之外,还有二维部分依赖图,更加直观的表示二个特征(变量)影响预测结果。原创 2023-10-27 20:09:13 · 5490 阅读 · 3 评论 -
【机器学习可解释性】2.特征重要性排列
你的模型认为哪些特征最重要?我们可能会对模型提出的最基本的问题之一是:哪些特征对预测的影响最大?这个概念被称为特征重要性。有多种方法可以衡量特征的重要性。一些方法巧妙地回答了上述问题的不同版本。其他方法也有不足之处。在本课程中,我们将重点讨论排列的重要性。快速计算广泛使用和理解,并且与我们希望特征重要性度量具有的属性一致。您将通过出租车票价预测比赛的数据样本来思考和计算排列重要性。我们现在不会专注于数据探索或模型构建。你可以运行下面的单元格加载数据将数据划分为训练集和验证集。原创 2023-10-26 21:26:02 · 2393 阅读 · 1 评论 -
【机器学习可解释性】1.模型洞察的价值
本文是 kaggle上机器学习可解释性课程,共五部分,除第一部分介绍外,每部分包括辅导和练习。此为第一部分,原文链接如果你是入门者,建议先看之前的文章《sklearn快速入门教程》和《机器学习中级教程》。引用格式的文字,非原文的内容,是我在学习过程中,加入一些体会和感想,与小伙伴们分享。在机器学习中,除线性回归可以比较容易解释之外,其他的模型很难做进一步解释和展示,特别给对机器学习不太了解的朋友,因此急需要有可解释的文字、图表以及相关的内容,最直观的就是图形。原创 2023-10-25 21:03:56 · 567 阅读 · 0 评论 -
深度学习初级课程 5.剪枝、批量标准化
本文为kaggle 深度学习初级课程 第五部分Dropout and Batch Normalization Add these special layers to prevent overfitting and stabilize training.在这节课中,我们将学习两种特殊的层(dropout 和 Batch Normalization),它们本身不包含任何神经元,但它们添加了一些功能,有时可以以各种方式使模型受益。两者都是现代体系结构中常用的。原创 2022-05-16 22:53:28 · 695 阅读 · 0 评论 -
深度学习初级课程 应用. 用TPU探测希格斯玻色子
本文为kaggle 深度学习初级课程 应用部分. Detecting the Higgs Boson With TPUs应用所学知识,弥补课程与应用新技能之间的差距!在庞大的数据中寻找希格斯玻色子。原创 2022-05-20 21:30:56 · 386 阅读 · 0 评论 -
深度学习初级课程 6.二分类
本文为kaggle 深度学习初级课程 第六部分 Binary Classification Apply deep learning to another common task.现在我们将把神经网络应用于另一个常见的机器学习问题:分类。到目前为止,我们所学到的大部分知识仍然适用。主要区别在于我们使用的损耗函数,以及我们希望最后一层产生什么样的输出。原创 2022-05-18 19:54:29 · 2175 阅读 · 0 评论 -
深度学习初级课程 4.过拟合和欠拟合
本文为kaggle 深度学习初级课程 第四部分 Overfitting and Underfitting --Improve performance with extra capacity or early stopping.在本课中,我们将学习如何解释这些学习曲线,以及如何使用它们来指导模型开发。特别是,我们将检查学习曲线,寻找拟合不足和拟合过度的证据,并查看几种纠正策略。原创 2022-05-15 10:18:20 · 1900 阅读 · 0 评论 -
深度学习初级课程 3.随机梯度下降法
本文为kaggle 深度学习初级课程 第二部分 Deep Neural Networks --Add hidden layers to your network to uncover complex relationships.在这节课中,我们将了解随机梯度实现的方法,看到如何训练神经网络;我们将看到神经网络是如何学习的。原创 2022-05-14 09:34:45 · 1497 阅读 · 0 评论 -
深度学习初级教程 2.深度神经网络
本文为kaggle 深度学习初级课程 第二部分 Deep Neural Networks --Add hidden layers to your network to uncover complex relationships.在这节课中,我们将看到我们如何构建能够学习复杂关系的神经网络——深层神经网络以其著名。这里的关键思想是模块化,从简单的功能单元构建一个复杂的网络。我们已经了解了线性单元如何计算线性函数——现在我们将了解如何组合和修改这些单个单元,以建模更复杂的关系。原创 2022-05-13 19:10:29 · 598 阅读 · 0 评论 -
深度学习初级教程 1.单一神经元
本文为kaggle 深度学习初级课程 第一部分 A Single Neuron --Learn about linear units, the building blocks of deep learning. 本节介绍什么是深度学习?以线性单位示例!你就要学会开始构建自己的深度神经网络所需的一切。原创 2022-05-12 19:04:34 · 1659 阅读 · 1 评论 -
机器学习中级教程 7.数据泄漏
本文为kaggle机器学习中级课程 第七部分 Data Leakage --Find and fix this problem that ruins your model in subtle ways.在本教程中,您将了解什么是数据泄漏以及如何防止它。如果你不知道如何预防,泄漏会频繁出现,它会以微妙而危险的方式破坏你的模型。所以,这是数据科学家实践中最重要的概念之一。原创 2022-05-04 16:27:06 · 1242 阅读 · 0 评论 -
机器学习中级教程 6.梯度提升(XGBoost)
本文为kaggle机器学习中级课程 第六部分 XGBoost--The most accurate modeling technique for structured data.在本教程中,您将学习如何使用渐变增强构建和优化模型。该方法在许多Kaggle竞赛中占据主导地位,并在各种数据集上获得最先进的结果。原创 2022-05-03 12:27:26 · 1877 阅读 · 0 评论 -
机器学习中级教程 5.交叉验证
本文为kaggle机器学习中级课程 第五部分 Cross-Validation --A better way to test your models. 在本教程中,您将学习如何使用交叉验证来更好地衡量模型性能。原创 2022-05-02 12:47:22 · 2217 阅读 · 0 评论 -
机器学习中级教程 4.管道(Pipelines)
本文为kaggle机器学习中级课程 第四部分 Pipelines --A critical skill for deploying (and even testing) complex models with pre-processing.在本教程中,您将了解什么是管道,学习如何使用管道来优化建模代码。原创 2022-05-01 21:56:53 · 1465 阅读 · 0 评论 -
机器学习中级课程 3.分类变量
本文为kaggle机器学习中级课程 第三部分 Categorical Variables --There's a lot of non-numeric data out there. Here's how to use it for machine learning.在本教程中,您将了解什么是分类变量,以及处理此类数据的三种方法。原创 2022-04-30 17:18:25 · 4259 阅读 · 0 评论 -
机器学习中级课程 2.缺失值
本文为kaggle机器学习中级课程 第二部分 Missing ValuesMissing values happen. Be prepared for this common challenge in real datasets. 缺失值的发生,为现实数据集中的这一常见挑战做好准备。本教程中,您将学习三种处理缺失值的方法。然后,您将在真实数据集上比较这些方法的有效性。原创 2022-04-29 21:53:51 · 833 阅读 · 0 评论 -
机器学习中级教程 1.介绍
本文为kaggle机器学习中级课程 第一部分 Introduction Review what you need for this course. 如果你有一些机器学习的背景,并且你想学习如何快速提高模型的质量,那你就来对地方了!在本课程中,您将学到:处理现实世界数据集中常见的数据类型(缺失值、分类变量),设计管道以提高机器学习代码的质量,使用先进技术进行模型验证(交叉验证),建立最先进的模型,广泛用于赢得Kaggle竞赛(XGBoost),以及避免常见和重要的数据科学错误(数据泄漏)。原创 2022-04-28 19:55:14 · 1137 阅读 · 0 评论 -
sklearn快速入门教程 7.机器学习竞赛
机器学习入门课程 第七部分 Machine Learning CompetitionsEnter the world of machine learning competitions to keep improving and see your progress. 机器学习竞赛是提高技能和衡量进步的好方法原创 2022-04-26 22:08:58 · 1341 阅读 · 0 评论 -
sklearn快速入门教程 6.随机森林
机器学习入门课程 第六部分 Random Forests --Using a more sophisticated machine learning algorithm.决策树给你留下了一个艰难的决定。一棵长着很多叶子的大树会过度生长,因为每一个预测都来自历史数据,这些数据只来自它叶子上的少数几栋房屋。但是,一棵叶子很少的浅树将表现不佳,因为它无法在原始数据中捕捉到同样多的差异。原创 2022-04-25 18:29:16 · 1152 阅读 · 0 评论 -
sklearn快速入门教程 5.欠拟合和过拟合
机器学习入门课程 第五部分 Underfitting and OverfittingFine-tune your model for better performance.原创 2022-04-24 21:53:37 · 1250 阅读 · 0 评论 -
sklearn快速入门教程 4.模型评估
机器学习入门课程 第四部分 ValidationMeasure the performance of your model, so you can test and compare alternatives.原创 2022-04-23 09:50:15 · 977 阅读 · 0 评论 -
sklearn快速入门教程 3.你的第一个机器学习模型
机器学习入门课程,第三部分,Your First Machine Learning Model-- Building your first model. Hurray!原创 2022-04-22 18:59:56 · 461 阅读 · 0 评论 -
sklearn快速入门教程 2.基本数据探索
机器学习入门课程,第二部分,Basic Data Exploration --Load and understand your data.原创 2022-04-21 19:09:52 · 1132 阅读 · 0 评论 -
sklearn快速入门教程 1.模型是如何工作的
本文是kaggle上 机器学习 的入门课程,第一部分,How Models Work,--The first step if you're new to machine learning.原创 2022-04-20 23:01:35 · 1409 阅读 · 0 评论