数据清理和数据标准化

数据清洗(Data Cleaning)

数据清洗是指处理缺失值和异常值,以提高数据质量和模型性能。它是数据预处理过程中至关重要的一步,有助于确保模型训练的准确性和可靠性。

原理

缺失值处理

处理缺失值的方法包括删除含有缺失值的样本或特征,或者使用插值、均值、中位数、众数等方法填补缺失值。

异常值处理

处理异常值的方法包括使用统计方法(如Z-Score)或基于模型的方法(如IQR)。

核心公式

处理缺失值

均值填补

对于一个有缺失值的特征列 X,其均值 Xˉ 计算为:

用这个均值填补缺失值。

处理异常值

Z-Score

标准化后的值 Z 计算公式为:

其中,μ 是均值,σ 是标准差。通常,∣Z∣>3 被认为是异常值。

案例

假设我们有一个关于房屋市场的数据集,其中包含房屋价格、房屋面积和用户评分等信息。数据集中可能存在缺失值和异常值,我们需要对其进行清洗,以便后续的分析和建模。

数据集描述

  • House_ID: 房屋的唯一标识符
  • Price: 房屋价格(单位:千元)
  • Size: 房屋面积(单位:平方米)
  • Rating: 用户评分(1到5分)

代码实现

import pandas as pd
import numpy as np

# 创建虚构数据集
np.random.seed(42)
data = {
    'House_ID': range(1, 101),
    'Price': np.random.normal(loc=300, scale=50, size=100),  # 房屋价格&#
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值