![99e6b370890c3418f14ede4e32b34c5b.png](https://i-blog.csdnimg.cn/blog_migrate/091431dfd9451e1c9ba70b723b5944cb.jpeg)
![0d8f9399b139a17d8339767c2b6c87cc.png](https://i-blog.csdnimg.cn/blog_migrate/6e0b9b5b8ad2f8a31843965ece8990e8.jpeg)
数据可视化是数据科学家工作中的重要组成部分。在项目的早期阶段,你通常会进行探索性数据分析(Exploratory Data Analysis,EDA)以获取对数据的一些理解。
创建可视化方法确实有助于使事情变得更加清晰易懂,特别是对于大型、高维数据集。在项目结束时,以清晰、简洁和引人注目的方式展现最终结果是非常重要的,因为你的受众往往是非技术型客户,只有这样他们才可以理解。
Matplotlib 是一个流行的 Python 库,可以用来很简单地创建数据可视化方案。但每次创建新项目时,设置数据、参数、图形和排版都会变得非常繁琐和麻烦。在这篇博文中,我们将着眼于 5 个数据可视化方法,并使用 Python Matplotlib 为他们编写一些快速简单的函数。
与此同时,这里有一个很棒的图表,可用于在工作中选择正确的可视化方法!
![0c7ee55fc62cd75f97bd7426df384912.png](https://i-blog.csdnimg.cn/blog_migrate/f60bc9b2326d51a92fd36acd77179386.jpeg)
散点图
散点图非常适合展示两个变量之间的关系,因为你可以直接看到数据的原始分布。
如下面第一张图所示的,你还可以通过对组进行简单地颜色编码来查看不同组数据的关系。想要可视化三个变量之间的关系? 没问题!
仅需使用另一个参数(如点大小)就可以对第三个变量进行编码,如下面的第二张图所示。
![46da8fe191780dfd759d9d62d8a8b6ca.png](https://i-blog.csdnimg.cn/blog_migrate/c98cbcaadeba5e76ae50dc51162f15f5.jpeg)
![048072a76201991c3eb9245ad5a2870f.png](https://i-blog.csdnimg.cn/blog_migrate/0a246172a8eceb315fd7988e19f88860.jpeg)
现在开始讨论代码。我们首先用别名 “plt” 导入 Matplotlib 的 pyplot 。要创建一个新的点阵图,我们可调用 plt.subplots() 。
我们将 x 轴和 y 轴数据传递给该函数,然后将这些数据传递给 ax.scatter() 以绘制散点图。我们还可以设置点的大小、点颜色和 alpha 透明度。
你甚至可以设置 Y 轴为对数刻度。标题和坐标轴上的标签可以专门为该图设置。这是一个易于使用的函数,可用于从头到尾创建散点图!
代码
import matplotlib.pyplot as pltimport numpy as npdef scatterplot(x_data, y_data, x_label="", y_label="", title="", color = "r", yscale_log=False):
# Create the plot object
_, ax = plt.subplots() # Plot the data, set the size (s), color and transparency (alpha)
# of the points
ax.scatter(x_data, y_data, s =10, color = color, alpha = 0.75) if yscale_log == True:
ax.set_yscale('log') # Label the axes and provide a title
ax.set_title(title)
ax.set_xlabel(x_label)
ax.set_ylabel(y_label)
折线图
当你可以看到一个变量随着另一个变量明显变化的时候,比如说它们有一个大的协方差,那最好使用折线图。
让我们看一下下面这张图。
我们可以清晰地看到对于所有的主线随着时间都有大量的变化。使用散点绘制这些将会极其混乱,难以真正明白和看到发生了什么。
折线图对于这