![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
文章平均质量分 94
cndrip
这个作者很懒,什么都没留下…
展开
-
【Kaggle】练习赛《保险交叉销售的二分类预测》
本篇文章介绍的是Kaggle月赛《保险交叉销售的二元分类预测》。由于该数据集庞大并且不平衡性,使用传统的方法很难达到预期效果,本采用优化读取,减少内存使用量,对不平衡数据特殊的欠采样、过采样等不同方式进行训练和评估,最终采用多模型融合的方式,取得了0.89065的好成绩。原创 2024-07-14 19:42:07 · 704 阅读 · 2 评论 -
【Kaggle】练习赛《洪水数据集的回归预测》(下)
本篇介绍了该数据集非常特殊之处,各特征都非常类似,没有特别之处,各特征之间的相关系数几乎为零。同时,各类模型不敏感,最理想的模型居然是线性回归,决定系数R2R^2R2,也只有 0.846。对这样的一个问题,我们如何突破呢?写这篇文章的初衷,是为了一种思维的突破,改变原先常规的特征基础,选用统计量作为特征,这是我在以往所没有碰到过的,基于这一点,拿来分享给大家。原创 2024-05-05 17:31:11 · 1597 阅读 · 2 评论 -
【Kaggle】练习赛《洪水数据集的回归预测》(上)
本期是2024年5月份的题目《洪水数据集的回归预测》,发现与我之前参与的题目不一样,颠覆了我的认知,使我重认识机器学习的魅力。用大量的可视化的图,来展示这个数据集特征的特点和属性,从中发现这些特征的不同之处。由此引入一个新的问题,在此基础上进行突破。原创 2024-05-05 17:29:06 · 2445 阅读 · 4 评论 -
【Kaggle】练习赛《鲍鱼年龄预测》(下)
本文在上篇《鲍鱼年龄预测》用 optuna 对四个不同模型优化参数,最终用融合的方式,完成这份赛题。原创 2024-04-08 07:45:00 · 849 阅读 · 1 评论 -
【Kaggle】练习赛《鲍鱼年龄预测》(上)
本文是Kaggle月度练习赛的一个回归的赛题,本期是2024年4月份的题目《Regression with an Abalone Dataset》即《鲍鱼年龄预测》,本篇着重 讲解数据探索( EDA) 方面,下篇讲解 建模优化方面。🚀 在这个激动人心的探索中,我们深入了解鲍鱼生物学的迷人世界。我们的使命?利用先进的机器学习技术,根据鲍鱼的身体测量结果预测鲍鱼的年龄。原创 2024-04-06 21:25:12 · 1392 阅读 · 0 评论 -
【Kaggle】练习赛《肥胖风险的多类别预测》
作为机器学习的初学者,Kaggle提供了一个很好的练习和学习平台,其中有一个栏目《PLAYGROUND》,可以理解为游乐场系列赛,提供有趣、平易近人的数据集,以练习他们的机器学习技能,并每个月都会有一场比赛。非常适合新手学习的机会,同时会有大量的高手分享其代码,本期是2024年2月份的题目《Multi-Class Prediction of Obesity Risk》即《肥胖风险的多类别预测》,在此我分享在这个比赛过程的点点滴滴。原创 2024-03-07 19:36:16 · 3557 阅读 · 15 评论 -
深度学习初级课程 应用. 用TPU探测希格斯玻色子
本文为kaggle 深度学习初级课程 应用部分. Detecting the Higgs Boson With TPUs应用所学知识,弥补课程与应用新技能之间的差距!在庞大的数据中寻找希格斯玻色子。原创 2022-05-20 21:30:56 · 372 阅读 · 0 评论 -
深度学习初级课程 6.二分类
本文为kaggle 深度学习初级课程 第六部分 Binary Classification Apply deep learning to another common task.现在我们将把神经网络应用于另一个常见的机器学习问题:分类。到目前为止,我们所学到的大部分知识仍然适用。主要区别在于我们使用的损耗函数,以及我们希望最后一层产生什么样的输出。原创 2022-05-18 19:54:29 · 2121 阅读 · 0 评论 -
深度学习初级课程 5.剪枝、批量标准化
本文为kaggle 深度学习初级课程 第五部分Dropout and Batch Normalization Add these special layers to prevent overfitting and stabilize training.在这节课中,我们将学习两种特殊的层(dropout 和 Batch Normalization),它们本身不包含任何神经元,但它们添加了一些功能,有时可以以各种方式使模型受益。两者都是现代体系结构中常用的。原创 2022-05-16 22:53:28 · 676 阅读 · 0 评论 -
深度学习初级课程 4.过拟合和欠拟合
本文为kaggle 深度学习初级课程 第四部分 Overfitting and Underfitting --Improve performance with extra capacity or early stopping.在本课中,我们将学习如何解释这些学习曲线,以及如何使用它们来指导模型开发。特别是,我们将检查学习曲线,寻找拟合不足和拟合过度的证据,并查看几种纠正策略。原创 2022-05-15 10:18:20 · 1711 阅读 · 0 评论 -
深度学习初级课程 3.随机梯度下降法
本文为kaggle 深度学习初级课程 第二部分 Deep Neural Networks --Add hidden layers to your network to uncover complex relationships.在这节课中,我们将了解随机梯度实现的方法,看到如何训练神经网络;我们将看到神经网络是如何学习的。原创 2022-05-14 09:34:45 · 1483 阅读 · 0 评论 -
深度学习初级教程 2.深度神经网络
本文为kaggle 深度学习初级课程 第二部分 Deep Neural Networks --Add hidden layers to your network to uncover complex relationships.在这节课中,我们将看到我们如何构建能够学习复杂关系的神经网络——深层神经网络以其著名。这里的关键思想是模块化,从简单的功能单元构建一个复杂的网络。我们已经了解了线性单元如何计算线性函数——现在我们将了解如何组合和修改这些单个单元,以建模更复杂的关系。原创 2022-05-13 19:10:29 · 579 阅读 · 0 评论 -
Keras入门教程 6.Keras 预训练模型应用
本文 Keras 入门教程第六部分,本节使用预训练模型(包括- ResNetVGG16、MobileNet、InceptionResNetV3),使用一般的流程,来预测判定图片的分类。原创 2022-05-11 18:43:07 · 2075 阅读 · 0 评论 -
Keras入门教程 5.使用LSTM RNN 进行时间序列预测
本文 Keras 入门教程第五部分,本节使用LSTM 模型来分析 IMDB 电影评论并找出其正面/负面情绪。原创 2022-05-10 18:00:32 · 1934 阅读 · 0 评论 -
Keras入门教程 4.卷积神经网络(CNN)
本文 Keras 入门教程第四部分,本节利用卷积神经网络(CNN),对手写数字数据集 MNIST 做多分类建模。原创 2022-05-09 20:14:57 · 1831 阅读 · 0 评论 -
Keras入门教程 3.波士顿房价回归 (MPL)
这是keras 入门教程第三部分,从本节开始,将对Keras 自带的数据集进行学习,从波士顿房价回归数据集进行MPL算法回归建模。原创 2022-05-08 11:15:53 · 1976 阅读 · 0 评论 -
Keras入门教程 2.线性模型的优化
这是keras 入门教程第二部分,在上节基础上添加相应层,增加优化器,以达到优化模型的目的。线性回归模型。原创 2022-05-07 21:27:51 · 893 阅读 · 0 评论 -
keras入门教程 1.线性回归建模(快速入门)
本文以`Keras` 进行线性建模,对比了`sklearn` 的 LearnerRession 建模的不同。而面大量的 深度学习 均为`tesorflow` 1.X版本的教程,而2.0以上的版本教程,都是降到1.0版本再运行。因此,本文以`tesorflow` '2.8.0' 版本进行讲解。原创 2022-05-06 23:12:57 · 1247 阅读 · 0 评论 -
机器学习中级教程 7.数据泄漏
本文为kaggle机器学习中级课程 第七部分 Data Leakage --Find and fix this problem that ruins your model in subtle ways.在本教程中,您将了解什么是数据泄漏以及如何防止它。如果你不知道如何预防,泄漏会频繁出现,它会以微妙而危险的方式破坏你的模型。所以,这是数据科学家实践中最重要的概念之一。原创 2022-05-04 16:27:06 · 1183 阅读 · 0 评论 -
机器学习中级教程 6.梯度提升(XGBoost)
本文为kaggle机器学习中级课程 第六部分 XGBoost--The most accurate modeling technique for structured data.在本教程中,您将学习如何使用渐变增强构建和优化模型。该方法在许多Kaggle竞赛中占据主导地位,并在各种数据集上获得最先进的结果。原创 2022-05-03 12:27:26 · 1838 阅读 · 0 评论 -
机器学习中级教程 5.交叉验证
本文为kaggle机器学习中级课程 第五部分 Cross-Validation --A better way to test your models. 在本教程中,您将学习如何使用交叉验证来更好地衡量模型性能。原创 2022-05-02 12:47:22 · 2173 阅读 · 0 评论 -
机器学习中级教程 4.管道(Pipelines)
本文为kaggle机器学习中级课程 第四部分 Pipelines --A critical skill for deploying (and even testing) complex models with pre-processing.在本教程中,您将了解什么是管道,学习如何使用管道来优化建模代码。原创 2022-05-01 21:56:53 · 1364 阅读 · 0 评论 -
机器学习中级课程 3.分类变量
本文为kaggle机器学习中级课程 第三部分 Categorical Variables --There's a lot of non-numeric data out there. Here's how to use it for machine learning.在本教程中,您将了解什么是分类变量,以及处理此类数据的三种方法。原创 2022-04-30 17:18:25 · 4218 阅读 · 0 评论 -
机器学习中级课程 2.缺失值
本文为kaggle机器学习中级课程 第二部分 Missing ValuesMissing values happen. Be prepared for this common challenge in real datasets. 缺失值的发生,为现实数据集中的这一常见挑战做好准备。本教程中,您将学习三种处理缺失值的方法。然后,您将在真实数据集上比较这些方法的有效性。原创 2022-04-29 21:53:51 · 815 阅读 · 0 评论 -
机器学习中级教程 1.介绍
本文为kaggle机器学习中级课程 第一部分 Introduction Review what you need for this course. 如果你有一些机器学习的背景,并且你想学习如何快速提高模型的质量,那你就来对地方了!在本课程中,您将学到:处理现实世界数据集中常见的数据类型(缺失值、分类变量),设计管道以提高机器学习代码的质量,使用先进技术进行模型验证(交叉验证),建立最先进的模型,广泛用于赢得Kaggle竞赛(XGBoost),以及避免常见和重要的数据科学错误(数据泄漏)。原创 2022-04-28 19:55:14 · 1124 阅读 · 0 评论 -
sklearn快速入门教程 7.机器学习竞赛
机器学习入门课程 第七部分 Machine Learning CompetitionsEnter the world of machine learning competitions to keep improving and see your progress. 机器学习竞赛是提高技能和衡量进步的好方法原创 2022-04-26 22:08:58 · 1326 阅读 · 0 评论 -
sklearn快速入门教程 6.随机森林
机器学习入门课程 第六部分 Random Forests --Using a more sophisticated machine learning algorithm.决策树给你留下了一个艰难的决定。一棵长着很多叶子的大树会过度生长,因为每一个预测都来自历史数据,这些数据只来自它叶子上的少数几栋房屋。但是,一棵叶子很少的浅树将表现不佳,因为它无法在原始数据中捕捉到同样多的差异。原创 2022-04-25 18:29:16 · 1099 阅读 · 0 评论 -
sklearn快速入门教程 5.欠拟合和过拟合
机器学习入门课程 第五部分 Underfitting and OverfittingFine-tune your model for better performance.原创 2022-04-24 21:53:37 · 1212 阅读 · 0 评论 -
sklearn快速入门教程 4.模型评估
机器学习入门课程 第四部分 ValidationMeasure the performance of your model, so you can test and compare alternatives.原创 2022-04-23 09:50:15 · 965 阅读 · 0 评论 -
sklearn快速入门教程 3.你的第一个机器学习模型
机器学习入门课程,第三部分,Your First Machine Learning Model-- Building your first model. Hurray!原创 2022-04-22 18:59:56 · 447 阅读 · 0 评论 -
sklearn快速入门教程 2.基本数据探索
机器学习入门课程,第二部分,Basic Data Exploration --Load and understand your data.原创 2022-04-21 19:09:52 · 1116 阅读 · 0 评论 -
sklearn快速入门教程 1.模型是如何工作的
本文是kaggle上 机器学习 的入门课程,第一部分,How Models Work,--The first step if you're new to machine learning.原创 2022-04-20 23:01:35 · 1390 阅读 · 0 评论 -
天池龙珠数据挖掘训练营 Task6 学习笔记(二手车交易价格预测)
天池龙珠数据挖掘训练营学习笔记(6) --模型预测本节介绍了利用第5部分的内容,进行处理,将最终的结果,提交到比赛,获得较不错的成绩。在特征工程方面,标签的处理,模型有较多的提升空间。原创 2022-04-08 21:23:54 · 570 阅读 · 0 评论 -
天池龙珠数据挖掘训练营 Task5 学习笔记(模型融合)
天池龙珠数据挖掘训练营学习笔记(5) --模型融合本节介绍了模型融合基本原理,给出最简单整合的案例,实现融合。介绍了四大集成算法装袋(Bagging)、增压(Boosting)、堆叠(Stacking)、混合(Blending) 的区别。原创 2022-04-07 21:55:48 · 225 阅读 · 0 评论 -
天池龙珠数据挖掘训练营 Task4 学习笔记(建模调参)
天池龙珠数据挖掘训练营学习笔记(4) --建模与调参本节介绍了简单建模的方法,查看模型的异常情况,进行优化和处理,通过交叉验证评估模型的符合情况;通过多种模型对比(包括线性与非线性),找出最佳模型; 运用三种常用调参方法(贪心调参、网格搜索调参和贝叶斯调参)对模型进行,找出最优参数。原创 2022-04-06 13:11:16 · 1316 阅读 · 0 评论 -
天池龙珠数据挖掘训练营 Task3 学习笔记(特征工程)
天池龙珠数据挖掘训练营学习笔记(3) --特征工程本节介绍了数据的特征工程,进一步的数据处理,包括异常值处理,缺失值处理,特征归一化或标准化,数据分桶(分组),特征构造,特征筛选原创 2022-04-05 18:00:56 · 180 阅读 · 0 评论 -
天池龙珠数据挖掘训练营 Task2 学习笔记(数据分析)
天池龙珠数据挖掘训练营学习笔记(2)--数据探索熟悉数据集,了解数据集,对数据集进行验证来确定所获得数据集可以用于接下来的机器学习使用原创 2022-04-04 23:45:55 · 305 阅读 · 0 评论 -
天池龙珠数据挖掘训练营 Task1 学习笔记(赛题理解)
天池龙珠训练营学习笔记 阿里天池平台中的龙珠计划中的数据挖掘中的应用。 以“二手车交易价格预测”项目为应用模型,实现数据挖掘的整个流程,在此记录原创 2022-04-04 10:41:22 · 284 阅读 · 0 评论