数据可视化可以让我们很直观的发现数据中隐藏的规律,察觉到变量之间的互动关系,可以帮助我们更好的给他人解释现象,做到一图胜千文的说明效果。
欢迎扫码关注:
常见的数据可视化库有:
matplotlib 是最常见的2维库,可以算作可视化的必备技能库,由于matplotlib是比较底层的库,api很多,代码学起来不太容易。
seaborn 是建构于matplotlib基础上,能满足绝大多数可视化需求。更特殊的需求还是需要学习matplotlib。
pyecharts 上面的两个库都是静态的可视化库,而pyecharts有很好的web兼容性,可以做到可视化的动态效果。
但是在数据科学中,几乎都离不开pandas数据分析库,而pandas可以做:
数据采集:如何批量采集网页表格数据?
数据读取:pd.read_csv/pd.read_excel
数据清洗(预处理):理解pandas中的apply和map的作用和异同
可视化,兼容matplotlib语法(今天重点)
如果你之前没有学过pandas和matpltolib,我们先安装好这几个库
!pip3 install numpy!pip3 install pandas!pip3 install matplotlib
已经安装好,现在我们导入这几个要用到的库。使用的是伦敦天气数据,一开始我们只有12个月的小数据作为例子
#jupyter notebook中需要加这行代码%matplotlib inlineimport matplotlib.pyplot as pltimport numpy as npimport pandas as pd#读取天气数据df = pd.read_csv('data/london2018.csv')df
选择Month作为横坐标,Tmax作为纵坐标,绘图。
大家注意下面两种写法
#写法1df.plot(x='Month', y='Tmax')plt.show()