Pandas:Python可视化神器

本文介绍了如何使用Python的pandas库进行数据可视化,包括matplotlib、seaborn和pyecharts等工具的基础应用,如折线图、条形图、散点图、饼图和多图布局,并展示了如何通过调整参数美化图形,实现动态效果。
摘要由CSDN通过智能技术生成

大家好,数据可视化可以让我们很直观的发现数据中隐藏的规律,察觉到变量之间的互动关系,可以帮助我们更好的给他人解释现象,做到一图胜千文的说明效果。

常见的数据可视化库有:

  • matplotlib 是最常见的2维库,可以算作可视化的必备技能库,由于matplotlib是比较底层的库,api很多,代码学起来不太容易。

  • seaborn 是建构于matplotlib基础上,能满足绝大多数可视化需求。更特殊的需求还是需要学习matplotlib

  • pyecharts 上面的两个库都是静态的可视化库,而pyecharts有很好的web兼容性,可以做到可视化的动态效果。

但是在数据科学中,几乎都离不开pandas数据分析库,pandas的功能包括:

  • 数据采集 

  • 数据读取  pd.read_csv/pd.read_excel

  • 数据清洗(预处理)  

  • 可视化,兼容matplotlib语法

1.准备工作

如果你之前没有学过pandas和matpltolib,我们先安装好这几个库:

!pip3 install numpy
!pip3 install pandas
!pip3 install matplotlib

已经安装好,现在我们导入这几个要用到的库,使用的是伦敦天气数据,一开始只有12个月的小数据作为例子。

#jupyter notebook中需要加这行代码
%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
#读取天气数据
df = pd.read_csv('data/london2018.csv')
df

图片

2.绘制简单的图

选择Month作为横坐标,Tmax作为纵坐标,进行图像绘制。

2.1 折线图​​​​​​​

df.plot(x='Month', y='Tmax')
plt.show()

图片

  • 横坐标轴参数x传入的是df中的列名Month

  • 纵坐标轴参数y传入的是df中的列名Tmax

#grid绘制格线
df.plot(x='Month', y='Tmax', kind='line', grid=True)
plt.show()

上面的折线图中只有一条线, 将多个y绘制到一个图中,比如Tmax, Tmin。代码如下:​​​​​​​​​​​​​​

df.plot(x='Month', y=['Tmax', 'Tmin'])
plt.show()

2.2 条形图 

df.plot(x='Month',
        y='Rain',
        kind='bar')
#同样还可以这样画
#df.plot.bar(x='Month', y='Rain')
plt.show()

 多个变量的条形图:

df.plot(kind='bar',
        x = 'Month',
       y=['Tmax', 'Tmin'])
plt.show()

2.3 散点图 

df.plot(kind='scatter',
        x = 'Month',
        y = 'Sun')
plt.show()

2.4 饼形图

df.plot(kind='pie', y='Sun')
plt.show()

上图绘制有两个小问题:

  • legend图例不应该显示

  • 月份的显示用数字不太正规

df.index = ['Jan','Feb','Mar','Apr','May','Jun','Jul','Aug','Sep','Oct','Nov','Dec']
df.plot(kind='pie', y = 'Sun', legend=False)
plt.show()

2.5 箱型图

df2.plot.box(y='Rain')
#df2.plot(y='Rain', kind='box')
plt.show()

2.6 直方图

df2.plot(y='Rain', kind='hist')
#df2.plot.hist(y='Rain')
plt.show()

纵坐标的刻度可以通过bins设置:

df2.plot(y='Rain', kind='hist', bins=[0,25,50,75,100,125,150,175, 200])
#df2.plot.hist(y='Rain')
plt.show()

3.多图并存

df.plot(kind='line',
         y=['Tmax', 'Tmin', 'Rain', 'Sun'], #4个变量可视化
         subplots=True,   #多子图并存
         layout=(2, 2),   #子图排列2行2列
         figsize=(20, 10)) #图布的尺寸
plt.show()

df.plot(kind='bar',
         y=['Tmax', 'Tmin', 'Rain', 'Sun'], #4个变量可视化
         subplots=True,   #多子图并存
         layout=(2, 2),   #子图排列2行2列
         figsize=(20, 10)) #图布的尺寸
plt.show()

 综上所述,使用Pandas进行数据可视化,可以清晰直观观察数据,也可以df.plot更多参数,使图像更加美观,内容更加详细。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

python慕遥

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值