【Kaggle从入门到放弃】（04）：机器学习框架

最新推荐文章于 2021-04-17 14:35:29 发布

MisterJiaJia

最新推荐文章于 2021-04-17 14:35:29 发布

阅读量609

点赞数 1

分类专栏：【Kaggle从入门到放弃】文章标签： ML data science

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/MisterJiaJia/article/details/81235153

版权

本文详细介绍了Kaggle上进行机器学习项目的五个核心步骤：探索性分析、数据清理、特征工程、算法选择和训练模型。强调了数据清理和特征工程的重要性，并分别对数据可视化、异常值处理、缺失值填充、交互特征创建等关键环节进行了讲解。

摘要由CSDN通过智能技术生成

第一章概述

机器学习的五个核心步骤：

步骤一：探索性分析

首先，“了解”数据。这一步应该快速，有效和果断。

步骤二：数据清理

然后，清理数据，以避免许多常见的陷阱。更好的数据优于更高级的算法。

步骤三：特征工程

接下来，通过设计新特征，帮助你的算法“专注”重要事项。

步骤四：算法选择

为你要解决的问题，选择合适的算法。

步骤五：训练模型

最后，训练你的模型。

请记住：“更好的数据优于更高级的算法”。专业的数据科学家将大部分时间花在了解数据，清理数据和设计新特征上。也就是前三个核心步骤十分关键！

第二章探索性分析

工具：数据可视化、统计学分析。

目的：了解我们的数据集

数据分为数值型和类目型两种。数值型数据比如船票的价格，年龄等。类目型数据比如性别，登船点等。

1 数值型数据可视化：直方图

2 类目型数据可视化：条形图

研究相关性

相关性允许您查看数字要素与其他数字要素之间的关系。

相关性是介于-1和1之间的值，表示两个要素一致移动的程度。您无需记住数学计算它们。只要知道以下直觉：正相关意味着当一个特征增加时，另一个特征增加。例如孩子的年龄和身高。负相关意味着当一个特征增加时，另一个特征减少。例如，学习的时间和参加的人数。-1或1附近的相关性表明关系密切。

接近0的人表示关系薄弱。0表示没有关系。

3 热图：帮助您可视化此信息。

第三章数据清理

数据清理的常见步骤：修复结构错误、缺省数据的处理和过滤特征。

更好的数据优于更高级的算法。数据清理是每个人都做的事情，但少有人真正谈论过。正确的数据清理可能会影响您的项目。专业数据科学家通常将大部分时间花在这一步上。事实上，如果您有一个正确清理的数据集，即使是简单的算法也可以从数据中获得令人印象深刻的见解！

1 删除不需要的数据

数据清理的第一步是从数据集中删除不需要的数据。这包括重复或不相关的数据。在数据收集过程中最常出现重复数据，例如：合并来自多个地方的数据集

和从客户/其他部门接收数据。

不相关的观察结果是那些实际上不符合试图解决的具体问题的数据。例如，如果您只为单户住宅建造模型，那么您不希望在那里观察公寓。这也是从探索性分析中查看图表的好时机。您可以查看分类功能的分布图，以查看是否存在不应存在的任何类。在特征工程之前检查不相关的观察可以为您节省许多

最低0.47元/天解锁文章

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
【Kaggle从入门到放弃】（04）：机器学习框架

第一章概述机器学习的五个核心步骤：步骤一：探索性分析首先，“了解”数据。这一步应该快速，有效和果断。步骤二：数据清理然后，清理数据，以避免许多常见的陷阱。更好的数据优于更高级的算法。步骤三：特征工程接下来，通过设计新特征，帮助你的算法“专注”重要事项。步骤四：算法选择为你要解决的问题，选择合适的算法。步骤五：训练模...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。