数据可视化
文章平均质量分 96
cndrip
这个作者很懒,什么都没留下…
展开
-
【Kaggle】练习赛《有毒蘑菇的二分类预测》(下)
本篇 《有毒蘑菇的二分类预测》对数据集进行EDA,根据实际情况,用特征工程的方法,删除频次低的数据和缺失值多的列,同时用one-hot对原先的21个特征扩展成118个特征,再用深度学习的方法进行建模取得较好的成绩。原创 2024-08-25 17:21:24 · 759 阅读 · 0 评论 -
【Kaggle】练习赛《有毒蘑菇的二分类预测》(上)
本篇文章介绍的是Kaggle月赛《有毒蘑菇的二分类预测》。比赛的数据集有大量的缺失值,本期用两篇文章用不同的方法来处理这些缺失值,并使用和Pipeline技术,来提升处理数据的能力,简化操作步骤。原创 2024-08-25 15:37:03 · 942 阅读 · 0 评论 -
【Kaggle】练习赛《保险交叉销售的二分类预测》
本篇文章介绍的是Kaggle月赛《保险交叉销售的二元分类预测》。由于该数据集庞大并且不平衡性,使用传统的方法很难达到预期效果,本采用优化读取,减少内存使用量,对不平衡数据特殊的欠采样、过采样等不同方式进行训练和评估,最终采用多模型融合的方式,取得了0.89065的好成绩。原创 2024-07-14 19:42:07 · 807 阅读 · 2 评论 -
【Kaggle】练习赛《洪水数据集的回归预测》(下)
本篇介绍了该数据集非常特殊之处,各特征都非常类似,没有特别之处,各特征之间的相关系数几乎为零。同时,各类模型不敏感,最理想的模型居然是线性回归,决定系数R2R^2R2,也只有 0.846。对这样的一个问题,我们如何突破呢?写这篇文章的初衷,是为了一种思维的突破,改变原先常规的特征基础,选用统计量作为特征,这是我在以往所没有碰到过的,基于这一点,拿来分享给大家。原创 2024-05-05 17:31:11 · 1744 阅读 · 2 评论 -
【Kaggle】练习赛《洪水数据集的回归预测》(上)
本期是2024年5月份的题目《洪水数据集的回归预测》,发现与我之前参与的题目不一样,颠覆了我的认知,使我重认识机器学习的魅力。用大量的可视化的图,来展示这个数据集特征的特点和属性,从中发现这些特征的不同之处。由此引入一个新的问题,在此基础上进行突破。原创 2024-05-05 17:29:06 · 2822 阅读 · 6 评论 -
【Kaggle】练习赛《鲍鱼年龄预测》(上)
本文是Kaggle月度练习赛的一个回归的赛题,本期是2024年4月份的题目《Regression with an Abalone Dataset》即《鲍鱼年龄预测》,本篇着重 讲解数据探索( EDA) 方面,下篇讲解 建模优化方面。🚀 在这个激动人心的探索中,我们深入了解鲍鱼生物学的迷人世界。我们的使命?利用先进的机器学习技术,根据鲍鱼的身体测量结果预测鲍鱼的年龄。原创 2024-04-06 21:25:12 · 1494 阅读 · 0 评论 -
【Kaggle】练习赛《肥胖风险的多类别预测》
作为机器学习的初学者,Kaggle提供了一个很好的练习和学习平台,其中有一个栏目《PLAYGROUND》,可以理解为游乐场系列赛,提供有趣、平易近人的数据集,以练习他们的机器学习技能,并每个月都会有一场比赛。非常适合新手学习的机会,同时会有大量的高手分享其代码,本期是2024年2月份的题目《Multi-Class Prediction of Obesity Risk》即《肥胖风险的多类别预测》,在此我分享在这个比赛过程的点点滴滴。原创 2024-03-07 19:36:16 · 3767 阅读 · 15 评论 -
【机器学习可解释性】5.SHAP值的高级使用
排列重要性非常重要,因为它创建了简单的数字度量来查看哪些特征对模型重要。这有助于我们轻松地比较特性,并且您可以向非技术人员展示结果图。但它并没有告诉你每个特性的重要性。如果一个特征具有中等排列重要性,那可能意味着它具有中等排列重要性对一些预测有很大影响,但总体上没有影响,或者所有预测的中等效应SHAP总结图可以让我们鸟瞰特征的重要性和驱动因素。我们将浏览一个足球数据的示例图:这张图由许多点组成。垂直位置显示它所描绘的特征颜色显示该特征在数据集的那一行中是高还是低。原创 2023-10-29 20:02:35 · 6134 阅读 · 7 评论 -
【机器学习可解释性】4.SHAP 值
SHAP 值 (SHapley Additive exPlanations的首字母缩写)对预测进行分解,以显示每个特征的影响。你可以在哪里使用这个?一个模型说,银行不应该借钱给某人,法律要求银行解释每笔拒绝贷款的依据医疗保健提供者想要确定是什么因素导致每个病人患某种疾病的风险,这样他们就可以通过有针对性的健康干预措施直接解决这些风险因素在本次课程中,您将使用SHAP 值 来解释单个预测。原创 2023-10-28 20:33:33 · 3577 阅读 · 2 评论 -
【机器学习可解释性】3.部分依赖图
部分依赖图 --每个特征怎么样影响预测结果?像排列重要性一样,部分依赖图是在模型拟合后计算的。我们将使用拟合模型来预测我们的结果(他们的球员赢得“全场最佳球员”的概率)。但是我们**反复改变一个变量的值**来做出一系列的预测。如果球队只有40%的控球率,我们就能预测结果。然后我们预测,他们有50%的几率拿球,然后再预测60%,等等...... 我们追踪预测结果(在纵轴上),当我们从小的控球值移动到大的值(在横轴上)。除了一维的图之外,还有二维部分依赖图,更加直观的表示二个特征(变量)影响预测结果。原创 2023-10-27 20:09:13 · 5303 阅读 · 3 评论 -
【机器学习可解释性】2.特征重要性排列
你的模型认为哪些特征最重要?我们可能会对模型提出的最基本的问题之一是:哪些特征对预测的影响最大?这个概念被称为特征重要性。有多种方法可以衡量特征的重要性。一些方法巧妙地回答了上述问题的不同版本。其他方法也有不足之处。在本课程中,我们将重点讨论排列的重要性。快速计算广泛使用和理解,并且与我们希望特征重要性度量具有的属性一致。您将通过出租车票价预测比赛的数据样本来思考和计算排列重要性。我们现在不会专注于数据探索或模型构建。你可以运行下面的单元格加载数据将数据划分为训练集和验证集。原创 2023-10-26 21:26:02 · 2326 阅读 · 1 评论 -
【机器学习可解释性】1.模型洞察的价值
本文是 kaggle上机器学习可解释性课程,共五部分,除第一部分介绍外,每部分包括辅导和练习。此为第一部分,原文链接如果你是入门者,建议先看之前的文章《sklearn快速入门教程》和《机器学习中级教程》。引用格式的文字,非原文的内容,是我在学习过程中,加入一些体会和感想,与小伙伴们分享。在机器学习中,除线性回归可以比较容易解释之外,其他的模型很难做进一步解释和展示,特别给对机器学习不太了解的朋友,因此急需要有可解释的文字、图表以及相关的内容,最直观的就是图形。原创 2023-10-25 21:03:56 · 557 阅读 · 0 评论 -
可视化上证50结构图
用机器学习的方法,将上证50的成分股的K线数据,通过协方差矩阵,并使用Affinity Propagation进行聚类分析后,在二维平面展示。原创 2023-10-15 17:59:54 · 285 阅读 · 0 评论 -
数据处理可视化的最有价值的 50 张图 (下)
数据处理可视化的最有价值的 50 张图的第二部分,运用matplotlib和seabon作图。并提供源代码及数据集下载。原创 2022-04-12 21:45:01 · 527 阅读 · 0 评论 -
数据处理可视化的最有价值的 50 张图 (上)
最有用的50张 matplotlib 可视化图,将其翻译为中文,并修改部分代码,说明了有些由于版本问题的带来的BUG,并提交解决方案。并提供数据集和ipynb文件下载,内容太多故分为上下两部分。原创 2022-04-11 21:08:43 · 1189 阅读 · 0 评论