第一章 概述
机器学习的五个核心步骤:
步骤一:探索性分析
首先,“了解”数据。这一步应该快速,有效和果断。
步骤二:数据清理
然后,清理数据,以避免许多常见的陷阱。更好的数据优于更高级的算法。
步骤三:特征工程
接下来,通过设计新特征,帮助你的算法“专注”重要事项。
步骤四:算法选择
为你要解决的问题,选择合适的算法。
步骤五:训练模型
最后,训练你的模型。
请记住:“更好的数据优于更高级的算法”。专业的数据科学家将大部分时间花在了解数据,清理数据和设计新特征上。也就是前三个核心步骤十分关键!
第二章 探索性分析
工具:数据可视化、统计学分析。
目的:了解我们的数据集
数据分为数值型和类目型两种。数值型数据比如船票的价格,年龄等。类目型数据比如性别,登船点等。
1 数值型数据可视化:直方图
2 类目型数据可视化:条形图
研究相关性
相关性允许您查看数字要素与其他数字要素之间的关系。
相关性是介于-1和1之间的值,表示两个要素一致移动的程度。您无需记住数学计算它们。只要知道以下直觉:正相关意味着当一个特征增加时,另一个特征增加。例如孩子的年龄和身高。负相关意味着当一个特征增加时,另一个特征减少。例如,学习的时间和参加的人数。-1或1附近的相关性表明关系密切。
接近0的人表示关系薄弱。0表示没有关系。
3 热图:帮助您可视化此信息。
第三章 数据清理
数据清理的常见步骤:修复结构错误、缺省数据的处理和过滤特征。
更好的数据优于更高级的算法。数据清理是每个人都做的事情,但少有人真正谈论过。正确的数据清理可能会影响您的项目。专业数据科学家通常将大部分时间花在这一步上。事实上,如果您有一个正确清理的数据集,即使是简单的算法也可以从数据中获得令人印象深刻的见解!
1 删除不需要的数据
数据清理的第一步是从数据集中删除不需要的数据。这包括重复或不相关的数据。在数据收集过程中最常出现重复数据,例如:合并来自多个地方的数据集
和从客户/其他部门接收数据。
不相关的观察结果是那些实际上不符合试图解决的具体问题的数据。例如,如果您只为单户住宅建造模型,那么您不希望在那里观察公寓。这也是从探索性分析中查看图表的好时机。您可以查看分类功能的分布图,以查看是否存在不应存在的任何类。在特征工程之前检查不相关的观察可以为您节省许多