环保数据缺失值填补方法

本次实验的实验目的:

现有开源公共空气质量监测数据集data.csv,包含字段:日期、城市名称、空气质量、PM2.5含量、PM10含量、二氧化硫含量、二氧化氮含量、一氧化碳含量、臭氧含量等字段。完成实验的相关要求。

实验环境:华育兴业、Python 3.10

实验内容:

1. 平均值填补:计算空气质量字段中非空数据的平均值,通过平均值填补空气质量中现有空值;

2. 中位数:计算PM2.5含量字段中非空数据的中位数,通过中位数填补PM2.5含量字段中现有空值;

3. 前向填充:通过前向填充对二氧化硫字段中空值进行填充;

4. K近邻填充:以所有监测数值为计算字段,取最近的3个邻居进行K近邻计算填充二氧化氮字段中的空值;

5.  将填充后的数据保存到/root/filldata.csv文件,且只保留原始字段。

算法设计思想:

平均值填补:计算某列的平均值,用该平均值替代该列中的缺失值。

中位数填补:计算某列的中位数,用该中位数替代该列中的缺失值。

前向填充:利用前面的非缺失值来替代当前的缺失值。

K近邻填补:通过找到特征空间中最近的k个邻居,用这些邻居的值来填补目标值。

调试过程:

  1. 平均值填补:计算空气质量字段中非空数据的平均值,通过平均值填补空气质量中现有空值

  1. 中位数:计算PM2.5含量字段中非空数据的中位数,通过中位数填补PM2.5含量字段中现有空值;

  1. 前向填充:通过前向填充对二氧化硫字段中空值进行填充;

  1. K近邻填充:以所有监测数值为计算字段,取最近的3个邻居进行K近邻计算填充二氧化氮字段中的空值;

  1. 将填充后的数据保存到/root/filldata.csv文件,且只保留原始字段。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值