Python库Pandas数据可视化实战案例

>关注公众号:大数据技术派,回复`资料`,领取`1024G`资料。

数据可视化可以让我们很直观的发现数据中隐藏的规律,察觉到变量之间的互动关系,可以帮助我们更好的给他人解释现象,做到一图胜千文的说明效果。

常见的数据可视化库有:

  • matplotlib 是最常见的2维库,可以算作可视化的必备技能库,由于matplotlib是比较底层的库,api很多,代码学起来不太容易。

  • seaborn 是建构于matplotlib基础上,能满足绝大多数可视化需求。更特殊的需求还是需要学习matplotlib。

  • pyecharts 上面的两个库都是静态的可视化库,而pyecharts有很好的web兼容性,可以做到可视化的动态效果。

但是在数据科学中,几乎都离不开pandas数据分析库,而pandas可以做:

  • 数据采集:如何批量采集网页表格数据?

  • 数据读取:pd.read_csv/pd.read_excel

  • 数据清洗(预处理):理解pandas中的apply和map的作用和异同

  • 可视化,兼容matplotlib语法(今天重点)

准备工作

如果你之前没有学过pandas和matpltolib,我们先安装好这几个库

!pip3 install numpy
!pip3 install pandas
!pip3 install matplotlib

已经安装好,现在我们导入这几个要用到的库。使用的是伦敦天气数据,一开始我们只有12个月的小数据作为例子

#jupyter notebook中需要加这行代码
%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
#读取天气数据
df = pd.read_csv('data/london2018.csv')
df

plot最简单的图

选择Month作为横坐标,Tmax作为纵坐标,绘图。

大家注意下面两种写法

#写法1
df.plot(x='Month', y='Tmax')
plt.show()

  • 横坐标轴参数x传入的是df中的列名Month

  • 纵坐标轴参数y传入的是df中的列名Tmax

折线图

上面的图就是折线图,折线图语法有三种

  • df.plot(x='Month', y='Tmax')

  • df.plot(x='Month', y='Tmax', kind='line')

  • df.plot.line(x='Month', y='Tmax')

df.plot.line(x='Month', y='Tmax')
plt.show()

#grid绘制格线
df.plot(x='Month', y='Tmax', kind='line', grid=True)
plt.show()

多个y值

上面的折线图中只有一条线, 如何将多个y绘制到一个图中,比如Tmax, Tmin。

df.plot(x='Month', y=['Tmax', 'Tmin'])
plt.show()

条形图

df.plot(x='Month',
        y='Rain',
        kind='bar')
#同样还可以这样画
#df.plot.bar(x='Month', y='Rain')
plt.show()

水平条形图

bar环卫barh,就可以将条形图变为水平条形图

df.plot(x='Month',
        y='Rain',
        kind='barh')
#同样还可以这样画
#df.plot.bar(x='Month', y='Rain')
plt.show()

多个变量的条形图

df.plot(kind='bar',
        x = 'Month',
       y=['Tmax', 'Tmin'])
plt.show()

散点图

df.plot(kind='scatter',
        x = 'Month',
        y = 'Sun')
plt.show()

饼形图

df.plot(kind='pie', y='Sun')
plt.show()

上图绘制有两个小问题:

  • legend图例不应该显示

  • 月份的显示用数字不太正规

df.index = ['Jan','Feb','Mar','Apr','May','Jun','Jul','Aug','Sep','Oct','Nov','Dec']
df.plot(kind='pie', y = 'Sun', legend=False)
plt.show()

更多数据

一开头的数据只有12条记录(12个月)的数据,现在我们用更大的伦敦天气数据

import pandas as pd
df2 = pd.read_csv('data/londonweather.csv')
df2.head()

df2.Rain.describe()
count    748.000000
mean      50.408957
std       29.721493
min        0.300000
25%       27.800000
50%       46.100000
75%       68.800000
max      174.800000
Name: Rain, dtype: float64

上面一共有748条记录, 即62年的记录。

箱型图

df2.plot.box(y='Rain')
#df2.plot(y='Rain', kind='box')
plt.show()

直方图

df2.plot(y='Rain', kind='hist')
#df2.plot.hist(y='Rain')
plt.show()

纵坐标的刻度可以通过bins设置

df2.plot(y='Rain', kind='hist', bins=[0,25,50,75,100,125,150,175, 200])
#df2.plot.hist(y='Rain')
plt.show()

多图并存

df.plot(kind='line',
         y=['Tmax', 'Tmin', 'Rain', 'Sun'], #4个变量可视化
         subplots=True,   #多子图并存
         layout=(2, 2),   #子图排列2行2列
         figsize=(20, 10)) #图布的尺寸
plt.show()

df.plot(kind='bar',
         y=['Tmax', 'Tmin', 'Rain', 'Sun'], #4个变量可视化
         subplots=True,   #多子图并存
         layout=(2, 2),   #子图排列2行2列
         figsize=(20, 10)) #图布的尺寸
plt.show()

加标题

给可视化起个标题

df.plot(kind='bar',
         y=['Tmax', 'Tmin'], #2个变量可视化
         subplots=True,   #多子图并存
         layout=(1, 2),   #子图排列1行2列
         figsize=(20, 5),#图布的尺寸
         title='The Weather of London')  #标题
plt.show()

保存结果

可视化的结果可以存储为图片文件

df.plot(kind='pie', y='Rain', legend=False, figsize=(10, 5), title='Pie of Weather in London')
plt.savefig('img/pie.png')
plt.show()

df.plot更多参数

df.plot(x, y, kind, figsize, title, grid, legend, style)

  • x 只有dataframe对象时,x可用。横坐标

  • y 同上,纵坐标变量

  • kind 可视化图的种类,如line,hist, bar, barh, pie, kde, scatter

  • figsize 画布尺寸

  • title 标题

  • grid 是否显示格子线条

  • legend 是否显示图例

  • style 图的风格

查看plot参数可以使用help

import pandas as pd
help(pd.DataFrame.plot)

End.

来源:大邓和他的Python

猜你喜欢

### 回答1: Python Pandas是一种流行的数据分析工具,它提供了丰富的数据可视化功能,可以帮助用户更好地理解和分析数据。Pandas支持多种图表类型,包括折线图、柱状图、散点图、饼图等,用户可以根据需要选择合适的图表类型来展示数据。此外,Pandas还支持自定义图表样式和颜色,使得用户可以根据自己的需求来定制图表。总之,Python Pandas数据可视化是一种非常强大的工具,可以帮助用户更好地理解和分析数据。 ### 回答2: Python pandas是一种开源的数据分析和数据操作工具。它提供了很多数据处理和数据分析的功能,其中也包括了数据可视化数据可视化对于数据分析非常重要,因为数据在可视化的情况下更加直观和易于理解,可以帮助快速了解数据之间的关系和特征。 在Python pandas中,数据可视化主要是通过Matplotlib进行实现的。Matplotlib是Python中著名的绘图之一,可以用于绘制许多类型的图表,如线图、散点图、柱状图、面积图等等。 pandas中常用的数据可视化功能包括: 1. 直方图:用于表示数值型数据的分布情况,可以帮助我们了解数据的中心趋势和离散程度。 2. 箱线图:用于展示一组数据的分布情况,包括数据的中位数、四分位数、最大值、最小值等。 3. 折线图:用于表示随着时间变化而变化的数值型数据,可以帮助我们观察和分析数据的趋势性。 4. 散点图:用于表示两个数值型变量之间的关系,帮助我们探索数据的相关性。 5. 饼状图:用于表示类别型数据的占比情况,可以帮助我们了解不同类别之间的比例关系。 除了以上常用的数据可视化功能,pandas还提供了很多其他的数据可视化方式,如热力图、雷达图、地图等等。数据可视化可以帮助我们更好地理解和分析数据,在进行数据分析的时候,我们可以根据具体数据的特点选择最合适的数据可视化方式来展示数据的分布和关系,帮助我们更深入地探索数据的特性和规律。 ### 回答3: Python是用于数据科学和人工智能应用程序开发的一个高级编程语言。在数据科学领域中,Python在实现许多高级数据处理和分析方法方面非常有用。PandasPython提供的一个强大的数据分析,可以轻松处理结构化数据。使用pandasPython,数据科学家可以执行许多数据处理和分析操作,包括数据清理,转换,聚合和可视化等。 Pandas可视化工具提供了广泛的选项,可以高效地生成各种类型的图形。Pandas提供了一个用于数据可视化的API,其中最常用的数据可视化工具是Matplotlib。Matplotlib是一个Python 2D绘图,用于生成各种类型的图形,包括线图,柱状图,散点图,饼图等等。Pandas可视化工具还支持Seaborn和Plotly等。这些提供各种图表类型,如分布,热图,关系图等。 通过使用PythonPandas可视化工具,用户可以轻松可视化大量数据,提高分析的效率和可读性。这些工具提供使图表美观和最佳化的选项,以达到良好的视觉效果和可观性。Pandas数据可视化工具不仅可以用于探索性数据分析(EDA),还可以用于报告编写、展示和交流分析结果。 总之,PythonPandas是数据科学领域中使用最广泛,最强大的编程语言和。通过使用Pandas数据可视化工具,用户可以快速生成各种类型的图形来可视化数据,突出数据重要性和趋势,提高分析效率和可读性。这使数据科学家可以更好地观察数据,推断出趋势和统计数据并生成报表。
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值