1. 导入所需库

python

import pandas as pd
  • 1.


2. 读取电商数据
假设数据存储在 CSV 文件中:

python

data = pd.read_csv('电商数据.csv')
  • 1.


3. 数据去重

python

data.drop_duplicates(inplace=True)
  • 1.


4. 处理缺失值


  • 查看各列缺失值情况:

python

data.isnull().sum()
  • 1.


  • 可以选择删除包含缺失值的行:

python

data.dropna(inplace=True)
  • 1.

或者根据具体情况进行填充,比如用均值填充数值型列:

python

numeric_columns = ['价格', '销量']  # 假设的数值型列
for column in numeric_columns:
    mean_value = data[column].mean()
    data[column].fillna(mean_value, inplace=True)
  • 1.
  • 2.
  • 3.
  • 4.


5. 处理异常值

  • 可以通过可视化(如绘制箱线图)来发现异常值,以价格列为例:

python

import seaborn as sns
import matplotlib.pyplot as plt

sns.boxplot(data['价格'])
plt.show()
  • 1.
  • 2.
  • 3.
  • 4.
  • 5.


  • 假设价格大于某个阈值为异常值,进行处理:

python

threshold = 1000  # 假设的阈值
data = data[data['价格'] <= threshold]
  • 1.
  • 2.


6. 数据格式转换


  • 日期列转换为日期格式:

python

data['购买日期'] = pd.to_datetime(data['购买日期'])
  • 1.

7. 数据验证和检查

  • 查看清洗后的数据信息:

python

data.info()
  • 1.
  • 再次检查是否还有缺失值或异常值等。

以上只是一个基本的示例,实际的电商数据清洗过程中,需要根据数据的具体情况和业务需求进行灵活调整和扩展。