Kaggle
文章平均质量分 92
Kaggle
李乾文
十年
展开
-
Kaggle教程 机器学习中级7 数据泄露
在本课程中,你将学习如何什么是数据泄露以及如何避免数据泄露。如果你不知道如何防止,数据泄漏将频繁出现,它将以微妙和危险的方式破坏你的模型。这是数据科学家最重要的概念之一。1、介绍数据泄露是指,在训练数据中包含目标信息,但在预测时没有可用的类似数据。这会使得训练数据(或者验证数据)效果比较好,但实际生产(预测)时效果特别差。也就是说,泄漏导致模型看起来很精确,但用模型做出来的决策却很不准确。...翻译 2020-01-05 15:34:02 · 1458 阅读 · 0 评论 -
Kaggle教程 机器学习中级6 XGBoost
在本课程中,你将学习如何使用梯度增强方法来构建和优化模型句号。这个方法在Kaggle竞赛中占据优势地位,并且在不同的数据集中取到得很好的结果。1、介绍在本课程的大部分时间里,你已经使用随机森林方法进行了预测,该方法比单个决策树有更好的性能。我们把随机森林方法称为“集成方法”。根据定义,集成方法结合了几个模型(例如,在随机森林的案例中有好几个树)的预测。接下来,我们将学习另一种集成方法,称为...翻译 2020-01-05 12:19:19 · 1898 阅读 · 0 评论 -
Kaggle教程 机器学习中级5 交叉验证
在本节课程中,你将会学习如何使用交叉验证来评估模型性能。1、介绍机器学习是一个迭代的过程。您将面临以下选择:使用什么预测变量、使用什么类型的模型、向这些模型提供什么参数等等。目前为止,你使用验证数据(或保留数据)评估模型质量来做出这些选择。但这种方法也有一些缺点。假设你有一个5000行的数据集,通常你会保留大约20%(1000行)的数据作为验证数据。但这再模型评分中会带来随机变化,有时在一...翻译 2019-10-15 21:25:21 · 803 阅读 · 2 评论 -
Kaggle教程 机器学习中级4 Pipeline
在本教程中,你将学习如何使用pipeline来清理你的建模代码。1、介绍Pipeline是一种简单的方法,能让你的数据预处理和建模步骤一步到位。很多数据科学家没有使用pipeline来建模,但pipeline有很多重要好处。包含:更精简的代码:考虑到数据处理时会造成混乱,使用pipeline不需要在每个步骤都特别注意训练和验证数据。更少的Bug:错误应用和忘记处理步骤的概率更小。更易...翻译 2019-10-15 21:22:49 · 528 阅读 · 0 评论 -
Kaggle教程 机器学习中级3 分类变量
在本教程中,您将了解什么是分类变量,以及处理这类数据的三种方法。1、介绍分类变量类似于枚举,拥有特定数量的值类型。比如一项调查,询问你多久吃一次早餐,并提供四个选项:“从不”、“很少”、“大多数日子”或“每天”。在本例中,数据是分类的,因为答案属于一组固定的类别。如果对人们所拥有的汽车品牌进行调查,回答可以分为“本田”、“丰田”和“福特”。在本例中,数据也是分类的。如果您没有...翻译 2019-10-07 15:48:46 · 834 阅读 · 0 评论 -
Kaggle教程 机器学习中级2 缺失值处理
在本课程中,您将学习三种处理缺失值的方法。然后使用实际数据集比较这些方法的效果。1、介绍造成数据丢失的原因有很多。例如,两间卧室的房子不包括第三间卧室的价值。调查对象可能选择不分享其收入。大多数机器学习库(包括s...翻译 2019-09-29 20:43:44 · 2568 阅读 · 0 评论 -
Kaggle教程 机器学习中级1 课程介绍
1、课程介绍欢迎来到Kaggle Learning《中级机器学习》微课程!如果你有一些机器学习的基础,并且你想学习如何快速提高模型的质量,那么你就来对地方了!在这个微型课程中,您将学习如何:处理现实数据集中常见的数据类型(缺失的值、分类变量),设计pipelines来提高机器学习代码的质量,使用先进的技术进行模型验证(交叉验证),建立最先进的模型,广泛用于赢得Kaggle比赛(XGB...翻译 2019-09-29 20:41:37 · 474 阅读 · 0 评论 -
Kaggle教程 机器学习入门7 继续你的征程
《机器学习入门》系列课程翻译完毕,撒花 ✿✿ヽ(°▽°)ノ✿1、机器学习竞赛进入机器学习竞赛的世界,不断提高,看看你的进步。https://www.kaggle.com/kernels/fork/12591982、继续你的征程有很多方法可以改进您的模型,此时,尝试是一个很好的学习方法。.改进模型的最佳方法是添加特征。看看这些数据列表,想想什么可能影响房价。缺失值或非数字数据类型将导致错...翻译 2019-09-24 16:42:40 · 451 阅读 · 0 评论 -
Kaggle教程 机器学习入门6 随机森林
1、介绍决策树给您留下一个难题。一颗较深、叶子多的树将会过拟合,因为每一个预测都来自叶子上仅有的几个历史训练数据。一颗较浅、叶子少的树将会欠拟合,因为它不能在原始数据中捕捉到那么多的差异。即使是当今最精良的建模技术,也面临着拟合不足和拟合过度之间问题。但是,许多模型通过一些不错的点子来提升效果。我们将以随机森林为例。随机森林使用了许多树,它通过对每棵成分树的预测进行平均来进行预测。它通常比单...翻译 2019-09-24 14:09:45 · 910 阅读 · 0 评论 -
Kaggle教程 机器学习入门5 欠拟合与过拟合
在这一步的最后,您将了解欠拟合和过拟合的概念,并将能够应用这些概念使您的模型更加准确。1、尝试不同的模型现在您已经有了一种可靠的方法来度量模型的准确性,您可以使用其他模型进行试验,看看哪个模型的预测效果最好。那么有哪些模型可选择呢?您可以在scikit-learn的文档中看到,决策树模型有许多选项。最重要的选项决定了树的深度。回想一下这门微课程的第一节课,一棵树的深度是它在做出预测之前进行分...翻译 2019-09-24 01:05:08 · 497 阅读 · 0 评论 -
Kaggle教程 机器学习入门4 模型验证
你已经建立了一个模型。但是它好不好呢?在本节课中,您将学习使用模型验证来度量模型的质量。度量模型质量是迭代改进模型的关键。1、什么是模型验证您将需要评估几乎所有构建的模型。在大多数应用程序中,模型质量的相关度量是预测精度。换言之,模型预测结果是否接近实际发生情况。许多人在测量预测精度时犯了一个巨大的错误。他们用训练数据进行预测,并将预测结果与训练数据中的目标值进行比较。您很快就会发现这个弊...翻译 2019-09-23 11:34:33 · 463 阅读 · 0 评论 -
Kaggle教程 机器学习入门3 你的第一个机器学习模型
1、选择建模数据原始数据集有太多的干扰变量,难以理解,甚至无法很好地打印出来。如何将这些数据处理为比较精简易懂呢?我们先凭直觉选择几个变量。后面的课程将向您展示使用统计技术来自动优选变量。选择变量/列前,我们先来看看数据集中有哪些列,使用DataFrame的columns属性来实现,代码如下:翻译 2019-09-23 01:12:41 · 767 阅读 · 0 评论 -
Kaggle教程 机器学习入门2 数据探索
1、使用Pandas熟悉数据任何机器学习项目的第一步都是熟悉数据。你可以使用Pandas来实现。Pandas是数据科学家用来探索和操作数据的主要工具。大多数人在代码中将panda简写为pd,使用以下代码将其引用:import pandas as pdPandas最重要的部分就是DataFrame了。DataFrame保存了类似表的数据类型,就像Excel中的工作表或SQL数据库中的表。P...翻译 2019-09-22 19:15:21 · 699 阅读 · 0 评论 -
Kaggle教程 机器学习入门1 模型是怎样工作的
简介我们将首先概述机器学习模型如何工作以及如何使用它们。如果您以前做过统计建模或机器学习,这可能会让您觉得很基础。别担心,我们很快就会建立强大的模型。翻译 2019-09-22 18:14:00 · 587 阅读 · 0 评论 -
Kaggle入门准备与上网指南
0x01 注册0x02 加入比赛0x03 熟悉比赛0x04 提交结果0x05 上网指南原创 2019-09-21 12:30:40 · 2009 阅读 · 0 评论