kaggle比赛数据_表格数据二进制分类:来自5个Kaggle比赛的所有技巧和窍门

本文分享了从5个Kaggle比赛中学到的表格数据二进制分类的技巧和窍门,涵盖了数据处理、模型训练等方面的知识。
摘要由CSDN通过智能技术生成

kaggle比赛数据

This article was originally written by Shahul ES and posted on the Neptune blog.

本文最初由 Shahul ES 撰写, 并发布在 Neptune博客上。

In this article, I will discuss some great tips and tricks to improve the performance of your structured data binary classification model. These tricks are obtained from solutions of some of Kaggle’s top tabular data competitions. Without much lag, let’s begin.

在本文中,我将讨论一些很棒的技巧和窍门,以提高结构化数据二进制分类模型的性能。 这些技巧是从Kaggle的一些顶级表格数据竞赛的解决方案中获得的。 没有太多的滞后,让我们开始吧。

These are the five competitions that I have gone through to create this article:

以下是我撰写本文时经历的五项比赛:

处理更大的数据集 (Dealing with larger datasets)

One issue you might face in any machine learning competition is the size of your data set. If the size of your data is large, that is 3GB + for kaggle kernels and more basic laptops you could find it difficult to load and process with limited resources. Here is the link to some of the articles and kernels that I have found useful in such situations.

在任何机器学习竞赛中,您可能面临的一个问题是数据集的大小。 如果数据量很大,那么kaggle内核和更基本的笔记本电脑需要3GB以上的内存,您可能会发现很难用有限的资源来加载和处理数据。 这里是我发现在这种情况下有用的一些文章和内核的链接。

数据探索 (Data exploration)

Data exploration always helps to better understand the data and gain insights from it. Before starting to develop machine learning models, top competitors always read/do a lot of exploratory data analysis for the data. This helps in feature engineering and cleaning of the data.

数据探索始终有助于更好地理解数据并从中获得见解。 在开始开发机器学习模型之前,顶级竞争者总是会读取/进行大量探索性数据分析。 这有助于功能设计和数据清理。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值