关于matplotlib和numpy+pandas的初级运用(一)
代码&数据源
来自《Python 数据分析与应用》和《Python数据分析与挖掘实战》
任务概要
通过学习numpy和pandas的初级用法,将npy/npz ,xsl的数据以series和Dataframe的形式导入,经过基本的Data clean,最后作图,得到可视化数据和相关有效值
实战例1
2000-2017年GDP基础分析
原有数据
来自
…data\xxx.npy
其中,[ 2 ]代表GDP,[ 3: ,5:] 代表第一到第三产业的GDP,[ 6: ,15:] 代表’农业’,‘工业’,‘建筑’,‘批发’,‘交通’,‘餐饮’,‘金融’,‘房地产’,‘其他’
数据清理
因书中说明,该数据没有异常值,故不考虑,实战二有相关方法。
任务实现
通过点线图,直方图,箱线图来可视化数据。
自用代码如下:
import numpy as np
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif'] = 'SimHei' ## 设置中文显示
plt.rcParams['axes.unicode_minus'] = False
data = np.load('../data/国民经济核算季度数据.npz',allow_pickle=True)
values = data['values']
gdpI = [list(values[:,3]),list(values[:,4]),list(values[:,5])]
gdpP = ([list(values[:,i]) for i in range(6,15)])
labelI = ['第一产业'