数学建模之数据分析【九】：数据清理总结

清上尘

已于 2024-08-25 09:41:30 修改

阅读量1.8k

点赞数 22

分类专栏：数据分析文章标签：数学建模数据分析数据挖掘人工智能机器学习

于 2024-08-24 10:20:29 首次发布

本文链接：https://blog.csdn.net/lmx1458070445/article/details/141490655

版权

数据清理是机器学习的重要组成部分之一。它在构建模型中起着重要作用。在本文中，我们将了解数据清理、其重要性以及 Python 实现。

公众号：快乐数模
小红书：学数模使我快乐

一、什么是数据清理

数据清理是机器学习 (ML)流程中的关键步骤，因为它涉及识别和删除任何缺失、重复或不相关的数据。数据清理的目标是确保数据准确、一致且无错误，因为不正确或不一致的数据会对 ML 模型的性能产生负面影响。专业数据科学家通常会将大量时间投入到这一步骤中，因为他们相信“更好的数据胜过更复杂的算法”。

数据清理，也称为数据清洗或数据预处理，是数据科学流程中的关键步骤，涉及识别和纠正或消除数据中的错误、不一致和不准确性，以提高其质量和可用性。数据清理至关重要，因为原始数据通常嘈杂、不完整且不一致，这会对从中得出的见解的准确性和可靠性产生负面影响。

二、为什么数据清理很重要

数据清理是数据准备过程中的关键步骤，对于确保数据集的准确性、可靠性和整体质量起着重要作用。

对于决策而言，所得出结论的完整性在很大程度上取决于基础数据的清洁度。如果没有适当的数据清理，不准确、异常值、缺失值和不一致可能会损害分析结果的有效性。此外，干净的数据有助于更有效地进行建模和模式识别，因为当输入高质量、无错误的输入时，算法的性能最佳。

此外，干净的数据集增强了研究结果的可解释性，有助于形成可操作的见解。

据科学中的数据清理
数据清理是数据科学不可或缺的一部分，在确保数据集的准确性和可靠性方面发挥着根本性作用。在数据科学领域，洞察力和预测来自庞大而复杂的数据集，输入数据的质量显著影响分析结果的有效性。数据清理涉及系统地识别和纠正数据集中的错误、不一致和不准确性，包括处理缺失值、删除重复项和处理异常值等任务。这一细致的过程对于增强分析的完整性、促进更准确的建模以及最终促进基于可信和高质量数据的明智决策至关重要。

三、执行数据清洁的步骤

执行数据清理涉及一个系统的过程，以识别和纠正数据集中的错误、不一致和不准确性。下面是执行数据清理的基本步骤。

移除不需要的观察值
处理缺失数据
管理不需要的异常值
修正结构性错误

删除不需要的观测值： 从数据集中识别并消除不相关或多余的观测值。此步骤涉及仔细检查数据条目，查找重复记录、不相关信息或对分析没有意义的数据点。删除不需要的观测值可简化数据集，减少噪音并提高整体质量。

修复结构错误： 解决数据集中的结构问题，例如 数据格式 、 命名约定 或 变量类型 的不一致。标准化格式、纠正命名差异并确保数据表示的一致性。修复结构错误可增强数据一致性并促进准确的分析和解释。

管理不需要的异常值： 识别和管理异常值，即明显偏离常态的数据点。根据具体情况，决定是否删除异常值或对其进行转换以尽量减少其对分析的影响。管理异常值对于从数据中获得更准确、更可靠的见解至关重要。

处理缺失数据： 制定有效处理缺失数据的策略。这可能涉及基于统计方法估算缺失值、删除有缺失值的记录或采用高级估算技术。处理缺失数据可确保数据集更完整，防止出现偏差并保持分析的完整性。

四、如何执行数据清理

执行数据清理涉及一种系统方法来提高数据集的质量和可靠性。该过程首先要彻底了解数据，检查其结构并识别缺失值、重复值和异常值等问题。解决缺失数据涉及对归纳或删除的战略决策，同时系统地消除重复值以减少冗余。管理异常值可确保极端值不会过度影响分析。纠正结构错误以标准化格式和变量类型，从而提高一致性。

在整个过程中，记录变更对于透明度和可重复性至关重要。迭代验证和测试可确认数据清理步骤的有效性，最终生成可供进行有意义的分析和洞察的精炼数据集。

五、数据清理的Python库实现

了解使用 Titanic 数据集进行数据库清理的每个步骤。以下是必要的步骤：

导入必要的库
加载数据集
使用 df.info() 检查数据信息

import pandas as pd
import numpy as np

# Load the dataset
df = pd.read_csv('titanic.csv')
df.head()

在这里插入图片描述

5.1 数据检查与探索

首先通过检查数据结构并识别缺失值、异常值和不一致性来了解数据，并使用以下 Python 代码检查重复的行：

df.duplicated()

在这里插入图片描述

5.2 使用df.info()检查数据信息

df.info()

在这里插入图片描述
从上面的数据信息中，我们可以看到 Age 和 Cabin 的计数数量不一致。并且一些列是分类的，具有数据类型对象，一些是整数和浮点值。

5.3 检查分类和数字列

# Categorical columns
cat_col = [col for col in df.columns if df[col]

最低0.47元/天解锁文章