AQI分析与预测

1. 背景

AQl(Ar Qualty Index),指空气质量指数,用来衡量空气清洁或污染的程度。值越小,表示空气质量越好。近年来,因为环境问题,空气质量越来越受到人们的重视。

2. 任务说明与知识要点

我们期望能够运用数据分析的相关技术,对全国域市空气质量进行研究与分析,希望能够解决如下疑问:

  • 哪些城市的空气质量较好/较差?【描述性统计分析】
  • 空气质量在地理位置分布上,是否具有一定的规律性?【描述性统计分析】。
  • 临海域市的空气质量是否有别于内陆城市?【[推断统计分析】
  • 空气质量主要受哪些因素影响?【相关系数分析】
  • 全国城市空气质量普遍处于何种水平?【区间估计】
  • 怎样预测一个域市的空气质量?【统计建模】

3. 数据集描述

在这里插入图片描述

4. 导入相关库

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import warnings
warnings.filterwarnings("ignore")
import seaborn as sns
# sns.set(style="darkgrid",font="SimHei",rc={"axes.unicode_minus":False})
from pylab import mpl
mpl.rcParams['font.sans-serif'] = ["SimHei"] # 中文字体
mpl.rcParams['axes.unicode_minus'] = False # 坐标轴负号

5. 加载数据集

  • 加载相关的数据集。
  • 可以使用head / tail / sample查看数据的大致情况。
data = pd.read_csv("F:\数据集\AQI\Dataset.csv")
print(data.shape)
print(data.head())# head取前5条,tail取后5条,sample取随机5条
data.sample(5)

6. 数据清洗

6.1 缺失值处理

我们可以使用如下方法查看缺失值:

  • info
  • isnull
# data.info()
data.isnull().sum(axis=0)
print(data.isnull().sum(axis=0))
print(data["Precipitation"].skew()) #skew()查找索引轴上数据的偏度
sns.distplot(data["Precipitation"].dropna()) #删除缺失值再显示
# 用中值替换
index = data[data["Precipitation"].isnull()].index
data["Precipitation"][index] = data["Precipitation"].median()
data.fillna({
   "Precipitation":data["Precipitation"].median()},inplace = True)
6.2 异常值处理

通过describe直看数值信息
可配合箱线图辅助。

print(data.describe())
# 箱线图
plt.figure(figsize=(15,10))
plt.xticks(rotation = 45,fontsize = 15)
sns.boxplot(data=data)

有异常值时的处理

t=data.copy()
for k in t:
	if pd.api.types.is_nunmeric_dtype(t[k]):
		o=t[k].describe()
		IQR=o["75%"]- o["25%"]
		lower = o["25%"]-1.5*IQR
		upper =o["75%"]+1.5*IQR
		t[k][t[k] < lover] = lower
		t[k][t[k] > upper] = upper
plt.figure(figsize=(15,4))
plt.xticks(rotation=45,fontsize=15)
sns.boxplot(data=t)
6.3 重复值处理
  • 使用duplicate检查重复值。可配合keep参数进行调整
  • 使用drop_duplicate删除重复值。
# 发现重复值
data.duplicated().sum()
print("重复值:"
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值