程度性数据python分析_python数据分析实战之AQI分析

文章目录

1、数据分析的基本流程

2、明确需求和目的

2.1 需求和目的

3、数据收集

4、数据预处理

4.1 数据整合

4.1.1 加载相关库和数据集

4.1.2 数据总体概览

4.2 数据清洗

4.2.1 缺失值的处理

4.2.2 异常值的处理

4.2.3 重复值的处理

5、数据分析

5.1 描述性统计分析

(1)哪些城市的空气质量较好/较差?

(2)对城市的空气质量按照等级划分,每个等级城市数量分布情况如何?

(3)空气质量在地理位置分布上,是否具有一定的规律性?

5.2 推断统计分析

(1)临海城市的空气质量是否有别于内陆城市?

(2)全国城市空气质量普遍处于何种水平?

5.3 相关系数分析

(1)空气质量主要受哪些因素影响?

6、编写报告

1、数据分析的基本流程

明确需求和目的

数据收集(内部数据、购买数据、爬取数据、调查问卷、其它收集)

数据预处理(数据整合、数据清洗、数据转换等)

数据分析(描述分析、推断分析、数据建模、数据可视化等)

编写报告

2、明确需求和目的

AQI:空气质量指数,用来衡量空气清洁或污染的程度,值越小,表示空气质量越好。

2.1 需求和目的

运用数据分析的相关技术,对全国城市空气质量进行研究和分析,解决以下问题:

哪些城市的空气质量较好/较差?(描述性统计分析)

对城市的空气质量按照如下等级划分,每个等级城市数量分布情况如何?(描述性统计分析)

6266451c569977a1074160ecf3bba626.png

空气质量在地理位置分布上,是否具有一定的规律性?(描述性统计分析)

临海城市的空气质量是否有别于内陆城市?(推断统计分析)

全国城市空气质量普遍处于何种水平?(推断统计分析)

空气质量主要受哪些因素影响?(相关系数分析)

3、数据收集

2015年空气质量指数(AQI)数据集,该数据集包含全国主要城市的相关数据以及空气质量指数。

75333e43da0180435025c8503d070fd8.png

4、数据预处理

4.1 数据整合

4.1.1 加载相关库和数据集

使用的库主要有:pandas、numpy、matplotlib、seaborn

使用的数据集:2015年空气质量指数(AQI)数据集

import numpy as np

import pandas as pd

import matplotlib.pyplot as plt

import seaborn as sns

import warnings

sns.set(style="darkgrid")

plt.rcParams["font.family"] = "SimHei" # 设置可以显示中文字体

plt.rcParams["axes.unicode_minus"] = False

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值