【干货】数据清洗的魔法：揭秘专业数据分析师的秘密武器

最新推荐文章于 2024-08-23 16:53:34 发布

青葱染指流年

最新推荐文章于 2024-08-23 16:53:34 发布

阅读量320

点赞数

分类专栏：数据分析文章标签： python 数据分析 pandas

本文链接：https://blog.csdn.net/LanLanLanDiao/article/details/131071200

版权

数据分析专栏收录该内容

6 篇文章 0 订阅

订阅专栏

作为一名数据分析师，我经常被问到：“数据分析的关键是什么？”我的回答总是：“数据清洗。” 是的，您没有听错。在这篇文章中，我将结合多年的工作经验，详细介绍数据清洗的重要性和方法，帮助您在数据分析的道路上更进一步。

一、数据清洗的重要性

1-1. 数据质量的保证

在数据分析过程中，数据质量是至关重要的。而数据清洗正是保证数据质量的关键步骤。通过数据清洗，我们可以去除数据中的错误、重复和不一致，从而确保数据的准确性和可靠性。

1-2. 提高分析效率

数据清洗不仅可以保证数据质量，还可以提高数据分析的效率。当数据集中存在大量的错误、重复和不一致时，分析过程将变得复杂且耗时。通过数据清洗，我们可以消除这些问题，从而加快分析速度。

二、数据清洗的常见方法

2-1. 缺失值处理

在实际工作中，数据集中经常会出现缺失值。对于缺失值，我们可以采用以下几种方法进行处理：

1. 删除：直接删除含有缺失值的记录。

import pandas as pd

# 1. 导入数据集为DataFrame对象
df = pd.read_csv('data.csv')
# 2. 删除包含缺失值的行
df.dropna(inplace=True)

2. 填充：用某个值（如平均值、中位数等）填充缺失值。

# 使用平均值填充缺失值
df.fillna(df.mean(), inplace=True)
# 使用中位数填充缺失值
df.fillna(df.median(), inplace=True)

3. 插值：根据已有数据，使用插值方法估算缺失值。

a. 线性插值(Linear Interpolation)

线性插值是一种简单而有效的方法，用于在给定数据集中估算缺失值。该方法基于两个已知数据点之间的线性关系来预测未知值。以下是使用线性插值方法估算缺失值的步骤：

确定已知数据点：找到缺失值附近的两个已知数据点。这些数据点通常是缺失值的前一个和后一个数据点。
计算斜率：使用这两个已知数据点计算线性插值的斜率。斜率可以通过以下公式计算：斜率 = (y2 - y1) / (x2 - x1) 其中，(x1, y1) 和 (x2, y2) 分别是已知数据点的坐标。
计算未知值的 y 坐标：使用斜率和已知数据点之一（例如 (x1, y1)），计算未知值的 y 坐标。可以使用以下公式：y = y1 + 斜率 * (x - x1) 其中，x 是未知值的 x 坐标。
估算缺失值：现在我们已经得到了估算值的 y 坐标，即缺失值的估算结果。

需要注意的是，线性插值方法假设数据点之间的关系是线性的。如果数据具有非线性关系，这种方法可能不会产生准确的估计。在这种情况下，可以考虑使用其他插值方法，如多项式插值或样条插值。

# 我们有三个已知的数据点：(0, 1), (2, 3) 和 (4, 5)。我们想要估算x坐标为3的缺失值。
import numpy as np

# 已知数据点
x_known = np.array([0, 2, 4])
y_known = np.array([1, 3, 5])

# 缺失值的x坐标
x_missing = 3

# 使用线性插值估算缺失值
y_missing = np.interp(x_missing, x_known, y_known)
print("估算的缺失值:", y_missing) # 4.0

b. 多项式插值（Polynomial interpolation) :

多项式插值是一种通过拟合一个多项式函数来估算缺失值的方法。这个多项式函数会经过所有已知数据点，并用来预测未知值。给定n个已知数据点，可以找到一个n-1阶的多项式函数，使其经过所有数据点。多项式插值的公式如下：

P(x) = a0 + a1 * x + a2 * x^2 + … + an * x^n

P（x） = a0 + a1 * x + a2 * x^2 + … + an * x^n

其中，a0, a1, …, an是多项式的系数。

多项式插值可能会产生较好的估计，特别是当数据具有非线性关系时。然而，高阶多项式可能会导致过拟合问题，即在已知数据点之间的预测可能较好，但在已知数据点之外的预测可能较差。

import numpy as np

# 已知数据点
x_known = np.array([0, 2, 4])
y_known = np.array([1, 3, 5])

# 缺失值的x坐标
x_missing = 3

# 使用多项式插值估算缺失值
degree = len(x_known) - 1
coefficients = np.polyfit(x_known, y_known, degree)
y_missing = np.polyval(coefficients, x_missing)
print("估算的缺失值:", y_missing)  #估算的缺失值: 4.000000000000001

c. 样条插值（Spline interpolation）：

样条插值是一种通过拟合一组分段多项式函数（通常为三次多项式）来估算缺失值的方法。样条插值可以在数据点之间产生平滑的曲线，并且通常具有较好的插值效果。样条插值的一个优点是它可以更好地处理非线性数据。

在样条插值中，数据点之间的每个区间都由一个多项式函数（如三次多项式）表示。这些多项式函数需要满足一定的条件，以确保整个插值曲线的平滑性和连续性。例如，在相邻多项式的交界处，它们的函数值、一阶导数和二阶导数都相等。

常见的样条插值方法有线性样条插值（线性分段函数）、二次样条插值（二次分段函数）和三次样条插值（三次分段函数）。其中，三次样条插值最为常用，因为它可以在保持平滑性和连续性的同时，较好地拟合数据点。

# 由于数据量较少我使用了线性样条插值（kind='linear'）
# 如果您有更多的数据点，可以尝试使用三次样条插值（kind='cubic'）
import numpy as np
from scipy.interpolate import interp1d

# 已知数据点
x_known = np.array([0, 2, 4])
y_known = np.array([1, 3, 5])

# 缺失值的x坐标
x_missing = 3

# 使用线性样条插值估算缺失值
linear_spline = interp1d(x_known, y_known, kind='linear')
y_missing = linear_spline(x_missing)
print("估算的缺失值:", y_missing)  # 估算的缺失值: 4.0

2-2. 异常值检测与处理

数据中的异常值可能会对分析结果产生较大影响。我们可以通过以下方法检测并处理异常值：

1.箱线图：通过绘制箱线图，可以直观地发现数据中的异常值。

'''
我们首先导入了numpy、matplotlib和seaborn库。
然后，我们生成了一个包含100个随机数的数据集。
接着，我们分别使用matplotlib的boxplot()函数和seaborn的boxplot()函数绘制了箱线图。
最后，我们使用plt.show()显示箱线图。
'''
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# 生成一个随机数据集
data = np.random.randn(100)

# 使用matplotlib绘制箱线图
plt.boxplot(data)
plt.title('Boxplot using matplotlib')
plt.show()

# 使用seaborn绘制箱线图
sns.boxplot(data)
plt.title('Boxplot using seaborn')
plt.show()

2. 3σ原则：

3σ原则（也称为三西格玛原则）是一种基于正态分布的异常值检测方法。该原则认为，在正态分布的数据集中，大约68%的数据点位于均值附近的一个标准差范围内，大约95%的数据点位于均值附近的两个标准差范围内，而大约99.7%的数据点位于均值附近的三个标准差范围内。因此，超出均值附近三个标准差范围的数据点可以被认为是异常值。

以下是使用3σ原则检测异常值的步骤：

计算数据集的均值（μ）和标准差（σ）。
对于每个数据点 x，检查其是否在范围 (μ-3σ) 到 (μ+3σ) 内。如果不在这个范围内，则将其视为异常值。

以下是一个使用Python实现的例子：

import numpy as np

# 示例数据集（包含异常值）
data = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 100])

# 计算均值和标准差
mean = np.mean(data)
std_dev = np.std(data)

# 定义异常值检测函数
def is_outlier(x, mean, std_dev):
   return (x < mean - 3 * std_dev) or (x > mean + 3 * std_dev)

# 检测异常值
outliers = [x for x in data if is_outlier(x, mean, std_dev)]

print("异常值：", outliers)  # 异常值：100

3. IQR方法（Interquartile Range）：

IQR是指数据集中第三四分位数（Q3）与第一四分位数（Q1）之间的距离。IQR表示了数据集中50%的数据的分布范围，对异常值不敏感。在IQR方法中，异常值被定义为低于Q1 - 1.5 * IQR或高于Q3 + 1.5 * IQR的数据点。使用IQR方法检测异常值的步骤：

计算数据集的第一四分位数（Q1）和第三四分位数（Q3）。
计算IQR：IQR = Q3 - Q1。计算 IQR：IQR = Q3 - Q1。
计算异常值的下界和上界：下界 = Q1 - 1.5 * IQR，上界 = Q3 + 1.5 * IQR。

对于每个数据点，检查其是否在下界和上界之间。如果不在这个范围内，则将其视为异常值。

import numpy as np

# 示例数据集
data = np.array([1, 2, 3, 4, 5, 6, 7, 100])

# 计算Q1和Q3
Q1 = np.percentile(data, 25)
Q3 = np.percentile(data, 75)

# 计算IQR
IQR = Q3 - Q1

# 定义异常值检测函数
def is_outlier_iqr(x, Q1, Q3, IQR):
   return (x < Q1 - 1.5 * IQR) or (x > Q3 + 1.5 * IQR)

# 检测异常值
outliers_iqr = [x for x in data if is_outlier_iqr(x, Q1, Q3, IQR)]

print("IQR方法异常值：", outliers_iqr)  #IQR方法异常值：[100]

4. 图基围栏(Tukey Fences)：

Tukey Fences是一种异常值检测方法，由统计学家John Tukey提出。这种方法与IQR方法非常相似，但允许使用不同的倍数因子（k）来定义异常值范围。异常值被定义为低于Q1 - k * IQR或高于Q3 + k * IQR的数据点。通常，k的值为1.5（与IQR方法相同）或3（对异常值定义更严格）。使用Tukey Fences检测异常值的步骤与IQR方法相同，只需将1.5替换为所选的k值。

import numpy as np

# 示例数据集
data = np.array([1, 2, 3, 4, 5, 6, 7, 100])

# 计算Q1和Q3
Q1 = np.percentile(data, 25)
Q3 = np.percentile(data, 75)

# 计算IQR
IQR = Q3 - Q1

# 定义异常值检测函数
def is_outlier(x, Q1, Q3, IQR, k):
   return (x < Q1 - k * IQR) or (x > Q3 + k * IQR)

# 使用IQR方法（k=1.5）检测异常值
outliers_iqr = [x for x in data if is_outlier(x, Q1, Q3, IQR, 1.5)]

# 使用Tukey Fences（k=3）检测异常值
outliers_tukey = [x for x in data if is_outlier(x, Q1, Q3, IQR, 3)]

print("IQR方法异常值：", outliers_iqr)
print("Tukey Fences异常值：", outliers_tukey)

2-3 .重复值处理

重复值会导致数据分析结果出现偏差。我们可以通过以下方法处理重复值：

去重：直接删除重复记录。
合并：将重复记录合并为一条记录。

'''
首先创建了两个示例数据集并将它们转换为pandas DataFrame。
然后，使用pd.concat()函数将两个数据集合并。
最后，使用drop_duplicates()函数根据ID列去除重复的数据。
'''
import pandas as pd

# 示例数据集
data1 = {
   'ID': [1, 2, 3, 4],
   'Name': ['Alice', 'Bob', 'Charlie', 'David']
}

data2 = {
   'ID': [3, 4, 5, 6],
   'Name': ['Charlie', 'David', 'Eva', 'Frank']
}

# 将字典转换为pandas DataFrame
df1 = pd.DataFrame(data1)
df2 = pd.DataFrame(data2)

# 数据合并
merged_data = pd.concat([df1, df2], ignore_index=True)
print("合并后的数据：")
print(merged_data)

# 数据去重
deduplicated_data = merged_data.drop_duplicates(subset='ID', keep='first')
print("去重后的数据：")
print(deduplicated_data)

2-4. 数据转换

数据转换是将数据从一种格式转换为另一种格式的过程。常见的数据转换方法有：

1. 归一化：将数据缩放到一个特定的范围内，如[0, 1]。

2. 标准化（Z-score归一化）：将数据转换为均值为0、标准差为1的标准正态分布。

数据归一化（Normalization）是一种数据预处理技术，用于将不同尺度和范围的数值特征转换为相同的尺度或范围。这样可以消除数值特征之间的差异，使得模型更容易学习和比较特征。数据归一化通常在机器学习和数据挖掘中使用，特别是在涉及距离度量（如K-近邻算法、K-均值聚类）或梯度下降优化（如线性回归、神经网络）的算法中。

常见的数据归一化方法有：

a. 最小最大归一化（Min-Max Scaling）：

最小最大归一化将原始数据线性缩放到一个指定的范围（通常为[0, 1]）。公式如下：

X_norm = (X - X_min) / (X_max - X_min)

其中，X是原始数据，X_min和X_max分别是数据的最小值和最大值，X_norm是归一化后的数据。

b. Z-score归一化（Standardization）：

Z-score归一化将原始数据转换为均值为0，标准差为1的分布。公式如下：

X_norm = (X - μ) / σ

其中，X是原始数据，μ是数据的均值，σ是数据的标准差，X_norm是归一化后的数据。

import numpy as np

# 示例数据集
data = np.array([1, 2, 3, 4, 5, 6, 7, 100])

# 最小最大归一化
def min_max_scaling(data):
    return (data - np.min(data)) / (np.max(data) - np.min(data))

normalized_data_min_max = min_max_scaling(data)
print("最小最大归一化结果：", normalized_data_min_max)

# Z-score归一化
def z_score_scaling(data):
    return (data - np.mean(data)) / np.std(data)

normalized_data_z_score = z_score_scaling(data)
print("Z-score归一化结果：", normalized_data_z_score)

在最小最大归一化中，数据被缩放到0到1的范围内。而在Z-score归一化中，数据的均值接近0，标准差接近1。

需要注意的是，归一化方法的选择取决于具体的应用场景和数据特点。例如，最小最大归一化对离群值敏感，而Z-score归一化则对离群值具有较强的鲁棒性。在实际应用中，可以根据数据特点和需求选择合适的归一化方法。

3. 分类数据编码：将分类数据转换为数值型数据，如独热编码。

分类数据编码是将分类变量（如文本标签或类别）转换为数值形式，以便机器学习算法能够处理这些变量。分类数据编码通常在数据预处理阶段进行，可以帮助模型更好地理解和学习特征。

常见的分类数据编码方法有：

a. 标签编码（Label Encoding）：

标签编码是一种简单的编码方法，将分类变量的每个唯一类别分配一个整数。这种方法适用于有序分类变量，但不适用于无序分类变量，因为整数编码可能导致算法错误地认为类别之间存在顺序关系。

b. 独热编码（One-Hot Encoding）：

独热编码是一种二进制编码方法，将分类变量的每个唯一类别转换为一个二进制向量。向量的长度等于类别的数量，对应于当前类别的元素设置为1，其余元素设置为0。这种方法适用于无序分类变量，但可能导致维度较高，尤其是在类别数量较多时。

以下是使用Python（pandas库）实现标签编码和独热编码的示例：

'''
分别使用标签编码和独热编码对分类变量进行了处理。
'''
import pandas as pd

# 示例数据集
data = {'Animal': ['Dog', 'Cat', 'Dog', 'Fish', 'Cat']}
df = pd.DataFrame(data)

# 标签编码
label_encoded = df['Animal'].astype('category').cat.codes
print("标签编码结果：")
print(label_encoded)

# 独热编码
one_hot_encoded = pd.get_dummies(df['Animal'], prefix='Animal')
print("独热编码结果：")
print(one_hot_encoded)

可以看到，在这个示例中，标签编码将分类变量转换为整数值，而独热编码将分类变量转换为二进制向量。在实际应用中，可以根据数据特点和需求选择合适的分类数据编码方法。

需要注意的是，对于基于树的模型（如决策树、随机森林、梯度提升树等），标签编码通常是足够的，因为这些模型可以处理类别之间的顺序关系。然而，对于基于距离度量或线性模型（如K-近邻算法、逻辑回归等），独热编码通常是更好的选择，因为它可以避免错误地引入顺序关系。

另外，如果类别数量较多，可以考虑使用其他编码方法，如二进制编码（Binary Encoding）、效用编码（Effect Encoding）等，以减小编码后数据的维度。

2-5. 数据整合

数据整合是指将来自多个数据源的数据整合到一起的过程。数据整合的目的是为了获取更全面、准确的信息，从而提高数据分析的质量。数据整合的方法通常包括数据连接、数据叠加、数据合并等。

在Python中，我们可以使用pandas库进行数据整合。以下是一些常见的数据整合方法及其实现：

1. 数据连接（Join）

数据连接是将两个或多个数据集按照某个共同属性（键）连接在一起。我们可以使用pandas的merge()函数进行数据连接。

import pandas as pd

# 创建两个示例数据集
data1 = pd.DataFrame({
    'key': ['A', 'B', 'C', 'D'],
    'value': [1, 2, 3, 4]
})

data2 = pd.DataFrame({
    'key': ['B', 'D', 'E', 'F'],
    'value': [5, 6, 7, 8]
})

# 数据连接
result = pd.merge(data1, data2, on='key', how='inner')  # 内连接
result_outer = pd.merge(data1, data2, on='key', how='outer')  # 外连接
result_left = pd.merge(data1, data2, on='key', how='left')  # 左连接
result_right = pd.merge(data1, data2, on='key', how='right')  # 右连接

print("Inner join:", result)
print("Outer join:", result_outer)
print("Left join:", result_left)
print("Right join:", result_right)

2. 数据叠加（Concat）

数据叠加是将两个或多个具有相同结构（列名相同）的数据集按行或列方向叠加在一起。我们可以使用pandas的concat()函数进行数据叠加。

import pandas as pd

# 创建两个示例数据集
data1 = pd.DataFrame({
    'A': [1, 2, 3],
    'B': [4, 5, 6]
})

data2 = pd.DataFrame({
    'A': [7, 8, 9],
    'B': [10, 11, 12]
})

# 数据叠加
result = pd.concat([data1, data2], axis=0)  # 按行叠加
result_column = pd.concat([data1, data2], axis=1)  # 按列叠加

print("Row concat:", result)
print("Column concat:", result_column)

3. 数据合并（Merge）

数据合并是将两个或多个数据集中的某些列按照某种规则（如求和、求平均等）合并在一起。我们可以使用pandas的groupby()和agg()函数进行数据合并。

import pandas as pd

# 创建一个示例数据集
data = pd.DataFrame({
    'Category': ['A', 'B', 'A', 'B', 'A', 'B'],
    'Value': [10, 20, 30, 40, 50, 60]
})

# 数据合并
result = data.groupby('Category').agg({'Value': 'sum'})  # 按类别求和

print("Merge: ", result)