【Kaggle从入门到放弃】(04):机器学习框架

第一章 概述机器学习的五个核心步骤:步骤一:探索性分析       首先,“了解”数据。这一步应该快速,有效和果断。步骤二:数据清理       然后,清理数据,以避免许多常见的陷阱。更好的数据优于更高级的算法。步骤三:特征工程接下来,通过设计新特征,帮助你的算法“专注”重要事项。步骤四:算法选择       为你要解决的问题,选择合适的算法。步骤五:训练模...
摘要由CSDN通过智能技术生成

第一章 概述

机器学习的五个核心步骤:

步骤一:探索性分析

       首先,“了解”数据。这一步应该快速,有效和果断。

步骤二:数据清理

       然后,清理数据,以避免许多常见的陷阱。更好的数据优于更高级的算法。

步骤三:特征工程

接下来,通过设计新特征,帮助你的算法“专注”重要事项。

步骤四:算法选择

       为你要解决的问题,选择合适的算法。

步骤五:训练模型

       最后,训练你的模型。

请记住:“更好的数据优于更高级的算法”。专业的数据科学家将大部分时间花在了解数据,清理数据和设计新特征上。也就是前三个核心步骤十分关键!

第二章 探索性分析

工具:数据可视化、统计学分析。

目的:了解我们的数据集

数据分为数值型和类目型两种。数值型数据比如船票的价格,年龄等。类目型数据比如性别,登船点等。

1 数值型数据可视化:直方图

2 类目型数据可视化:条形图

研究相关性

相关性允许您查看数字要素与其他数字要素之间的关系。

相关性是介于-1和1之间的值,表示两个要素一致移动的程度。您无需记住数学计算它们。只要知道以下直觉:正相关意味着当一个特征增加时,另一个特征增加。例如孩子的年龄和身高。负相关意味着当一个特征增加时,另一个特征减少。例如,学习的时间和参加的人数。-1或1附近的相关性表明关系密切。

接近0的人表示关系薄弱。0表示没有关系。

3 热图:帮助您可视化此信息。

第三章 数据清理

数据清理的常见步骤:修复结构错误、缺省数据的处理和过滤特征。

更好的数据优于更高级的算法。数据清理是每个人都做的事情,但少有人真正谈论过。正确的数据清理可能会影响您的项目。专业数据科学家通常将大部分时间花在这一步上。事实上,如果您有一个正确清理的数据集,即使是简单的算法也可以从数据中获得令人印象深刻的见解!

1 删除不需要的数据

数据清理的第一步是从数据集中删除不需要的数据。这包括重复或不相关的数据。在数据收集过程中最常出现重复数据,例如:合并来自多个地方的数据集

和从客户/其他部门接收数据。

不相关的观察结果是那些实际上不符合试图解决的具体问题的数据。例如,如果您只为单户住宅建造模型,那么您不希望在那里观察公寓。这也是从探索性分析中查看图表的好时机。您可以查看分类功能的分布图,以查看是否存在不应存在的任何类。在特征工程之前检查不相关的观察可以为您节省许多

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值