正所谓“一图胜千言”,数据可视化是数据科学中重要的一项工作,在面对海量的大数据中,如果没有图表直观的展示复杂数据,我们往往会摸不着头脑。通过可视化的图表可以直观了解数据潜藏的重要信息,以便在业务和决策中发现数据背后的价值!
常用的可视化库
1、Matplotlib
Matplotlib是Python中广泛使用的数据可视化库,与Pandas紧密集成,方便数据分析和可视化。支持了多种图表类型,如线图、散点图、条形图和直方图等。它的特点是易用,如果没有比较复杂的可视化需求,简单单单几行代码就可以轻松搞定。
import matplotlib.pyplot as plt
import numpy as np
# make data
np.random.seed(1)
x = 4 + np.random.normal(0, 1.5, 200)
#画直方图hist
plt.hist(x)
plt.show()
2、Seaborn
Seaborn 是一个基于 matplotlib 的可视化库。它的特点是可以用简洁的代码画出复杂好看的图表!
3、Plotly
Plotly是一个开源,交互式和基于浏览器的Python图形库,它的特点是可以创建互动性的图表,有超过30种图表类型, 提供了一些在大多数库中没有的图表 ,如等高线图、树状图、3D图表等。
常用的可视化图表
有效的图表应该是这样的:
传达正确和必要的信息,不歪曲事实。
设计简单。
优雅地表达信息而不是掩盖信息。
信息不超载。
Selva Prabhakaran
下文系统地汇总了数据可视化中最有用的图表,这些图表按照可视化目的可以分为7组:
一、相关性
-
散点图
-
气泡图
-
带趋势线的散点图
-
带状图抖动
-
计数图
-
边缘直方图
-
边际箱线图
-
相关性热图
-
变量关系图
二、偏差
-
发散柱形图
-
分散文本图
-
发散点图
-
带标记的发散棒棒糖图
-
面积图
三、排序
-
有序条形图
-
棒棒糖图表
-
点图
-
坡度图
-
哑铃图
四、分布
-
连续变量的直方图
-
分类变量的直方图
-
密度图
-
带直方图的密度曲线
-
密度曲线重叠图
-
分布点图
-
箱形图
-
点+箱线图
-
小提琴图
-
金字塔图
-
分类图
五、组成
-
华夫饼图
-
饼形图
-
树形图
-
条形图
六、变化
-
时间序列图
-
带注释的波峰和波谷的时间序列
-
自相关图
-
互相关图
-
时间序列分解图
-
多时间序列
-
双坐标图
-
具有误差带的时间序列
-
堆积面积图
-
未堆叠面积图
-
日历热图
-
季节图
七、分组
-
树状图
-
聚类图
-
安德鲁斯曲线
-
平行坐标
本节代码以matplotlib示例,你也可以选择任意的可视化库,如seaborn、plotly 展示同样的可视化效果,文末可下载相关数据集。
一、相关性
相关性图用于可视化两个或多个变量之间的关系。也就是说,一个变量相对于另一个变量如何变化。
1. 散点图
散点图是用于研究两个变量之间关系的经典且基本的图。如果数据中有多个组,您可能希望以不同的颜色可视化每个组。在 中matplotlib
,您可以使用 方便地执行此操作。plt.scatterplot()
# Import dataset
midwest = pd.read_csv("https://raw.githubusercontent.com/selva86/datasets/master/midwest_filter.csv")
# Prepare Data
# Create as many colors as there are unique midwest['category']
categories = np.unique(midwest['category'])
colors =[plt.cm.tab10(i/float(len(categories)-1))for i in range(len(categories))]
# Draw Plot for Each Category
plt.figure(figsize=(16,10), dpi=80, facecolor='w', edgecolor='k')
for i, category in enumerate(categories):
plt.scatter('area','poptotal',
data=midwest.loc[midwest.category==category,:],
s=20, c=colors[i], label=str(category))
# Decorations
plt.gca().set(xlim=(0.0,0.1), ylim=(0,90000),
xlabel='Area', ylabel='Population')
plt.xticks(fontsize=12); plt.yticks(fontsize=12)
plt.title("Scatterplot of Midwest Area vs Population", fontsize=22)
plt.legend(fontsize=12)
plt.show()
2. 气泡图
有时您想要显示边界内的一组点以强调它们的重要性。在此示例中,您从应圈出的数据帧中获取记录并将其传递给下面代码中描述的内容。encircle()
from matplotlib import patches
from scipy.spatial importConvexHull
import warnings; warnings.simplefilter('ignore')
sns.set_style("white")
# Step 1: Prepare Data
midwest = pd.read_csv("https://raw.githubusercontent.com/selva86/datasets/master/midwest_filter.csv")
# As many colors as there are unique midwest['category']
categories = np.unique(midwest['category'])
colors =[plt.cm.tab10(i/float(len(categories)-1))for i in range(len(categories))]
# Step 2: Draw Scatterplot with unique color for each category
fig = plt.figure(figsize=(16,10), dpi=80, facecolor='w', edgecolor='k')
for i, category in enumerate(categories):
plt.scatter('area','poptotal', data=midwest.loc[midwest.category==category,:], s='dot_size', c=colors[i], label=str(category), edgecolors='black', linewidths=.5)
# Step 3: Encircling
# https://stackoverflow.com/questions/44575681/how-do-i-encircle-different-data-sets-in-scatter-plot
def encircle(x,y, ax=None,**kw):
ifnot ax: ax=plt.gca()
p = np.c_[x,y]
hull =ConvexHull(p)
poly = plt.Polygon(p[hull.vertices,:],**kw)
ax.add_patch(poly)
# Select data to be encircled
midwest_encircle_data = midwest.loc[midwest.state=='IN',:]
# Draw polygon surrounding vertices
encircle(midwest_encircle_data.area, midwest_encircle_data.poptotal, ec="k", fc="gold", alpha=0.1)
encircle(midwest_encircle_data.area, midwest_encircle_data.poptotal, ec="firebrick", fc="none", linewidth=1.5)
# Step 4: Decorations
plt.gca().set(xlim=(0.0,0.1), ylim=(0,90000),
xlabel='Area', ylabel='Population')
plt.xticks(fontsize=12); plt.yticks(fontsize=12)
plt.title("Bubble Plot with Encircling", fontsize=22)
plt.legend(fontsize=12)
plt.show()
3. 带趋势线的散点图
如果您想了解两个变量如何相互变化,最佳拟合线就是最佳选择。下图显示了数据中各个组之间最佳拟合线的差异。要禁用分组并仅为整个数据集绘制一条最佳拟合线,请从下面的调用中删除该参数。hue='cyl'``sns.lmplot()
# Import Data
df = pd.read_csv("https://raw.githubusercontent.com/selva86/datasets/master/mpg_ggplot2.csv")df_select = df.loc[df.cyl.isin([4,8]),:]
# Plot
sns.set_style("white")gridobj = sns.lmplot(x="displ", y="hwy", hue="cyl", data=df_select, height=7, aspect=1.6, robust=True, palette='tab10', scatter_kws=dict(s=60, linewidths=.7, edgecolors='black'))
# Decorations
gridobj.set(xlim=(0.5,7.5), ylim=(0,50))
plt.title("Scatterplot with line of best fit grouped by number of cylinders", fontsize=20)
plt.show()
每条回归线在其自己的列中
或者,您可以在每个组自己的列中显示最佳拟合线。您可以通过设置.col=groupingcolumn``sns.lmplot()
# Import Data
df = pd.read_csv("https://raw.githubusercontent.com/selva86/datasets/master/mpg_ggplot2.csv")
df_select = df.loc[df.cyl.isin([4,8]),:]
# Each line in its own column
sns.set_style("white")
gridobj = sns.lmplot(x="displ", y="hwy",
data=df_select,
height=7,
robust=True,
palette='Set1',
col="cyl",
scatter_kws=dict(s=60, linewidths=.7, edgecolors='black'))
# Decorations
gridobj.set(xlim=(0.5,7.5), ylim=(0,50))
plt.show()
4. 带状图抖动
通常多个数据点具有完全相同的 X 和 Y 值。结果,多个点被绘制在彼此之上并隐藏。为了避免这种情况,请稍微抖动这些点,以便您可以直观地看到它们。使用seaborn 可以很方便地做到这一点。stripplot()
# Import Data
df = pd.read_csv("https://raw.githubusercontent.com/selva86/datasets/master/mpg_ggplot2.csv")
# Draw Stripplot
fig, ax = plt.subplots(figsize=(16,10), dpi=80)
sns.stripplot(df.cty, df.hwy, jitter=0.25, size=8, ax=ax, linewidth=.5)
# Decorations
plt.title('Use jittered plots to avoid overlapping of points', fontsize=22)
plt.show()
5. 计数图
避免点重叠问题的另一种选择是根据该点上有多少点来增加点的大小。因此,点的大小越大,其周围的点越集中。
# Import Data
df = pd.read_csv("https://raw.githubusercontent.com/selva86/datasets/master/mpg_ggplot2.csv")
df_counts = df.groupby(['hwy','cty']).size().reset_index(name='counts')
# Draw Stripplot
fig, ax = plt.subplots(figsize=(16,10), dpi=80)
sns.stripplot(df_counts.cty, df_counts.hwy, size=df_counts.counts*2, ax=ax)
# Decorations
plt.title('Counts Plot - Size of circle is bigger as more points overlap', fontsize=22)
plt.show()
6. 边缘直方图
边缘直方图具有沿 X 和 Y 轴变量的直方图。这用于可视化 X 和 Y 之间的关系以及 X 和 Y 各自的单变量分布。该图经常用于探索性数据分析 (EDA)。
# Import Data
df = pd.read_csv("https://raw.githubusercontent.com/selva86/datasets/master/mpg_ggplot2.csv")
# Create Fig and gridspec
fig = plt.figure(figsize=(16,10), dpi=80)
grid = plt.GridSpec(4,4, hspace=0.5, wspace=0.2)
# Define the axes
ax_main = fig.add_subplot(grid[:-1,:-1])
ax_right = fig.add_subplot(grid[:-1,-1], xticklabels=[], yticklabels=[])
ax_bottom = fig.add_subplot(grid[-1,0:-1], xticklabels=[], yticklabels=[])
# Scatterplot on main ax
ax_main.scatter('displ','hwy', s=df.cty*4, c=df.manufacturer.astype('category').cat.codes, alpha=.9, data=df, cmap="tab10", edgecolors='gray', linewidths=.5)
# histogram on the right
ax_bottom.hist(df.displ,40, histtype='stepfilled', orientation='vertical', color='deeppink')
ax_bottom.invert_yaxis()
# histogram in the bottom
ax_right.hist(df.hwy,40, histtype='stepfilled', orientation='horizontal', color='deeppink')
# Decorations
ax_main.set(title='Scatterplot with Histograms \n displ vs hwy', xlabel='displ', ylabel='hwy')
ax_main.title.set_fontsize(20)
for item in([ax_main.xaxis.label, ax_main.yaxis.label]+ ax_main.get_xticklabels()+ ax_main.get_yticklabels()):
item.set_fontsize(14)
xlabels = ax_main.get_xticks().tolist()
ax_main.set_xticklabels(xlabels)
plt.show()
7. 边际箱线图
边缘箱线图的用途与边缘直方图类似。然而,箱线图有助于查明 X 和 Y 的中位数、第 25 个百分位数和第 75 个百分位数。
# Import Data
df = pd.read_csv("https://raw.githubusercontent.com/selva86/datasets/master/mpg_ggplot2.csv")
# Create Fig and gridspec
fig = plt.figure(figsize=(16,10), dpi=80)
grid = plt.GridSpec(4,4, hspace=0.5, wspace=0.2)
# Define the axes
ax_main = fig.add_subplot(grid[:-1,:-1])
ax_right = fig.add_subplot(grid[:-1,-1], xticklabels=[], yticklabels=[])
ax_bottom = fig.add_subplot(grid[-1,0:-1], xticklabels=[], yticklabels=[])
# Scatterplot on main ax
ax_main.scatter('displ','hwy', s=df.cty*5, c=df.manufacturer.astype('category').cat.codes, alpha=.9, data=df, cmap="Set1", edgecolors='black', linewidths=.5)
# Add a graph in each part
sns.boxplot(df.hwy, ax=ax_right, orient="v")
sns.boxplot(df.displ, ax=ax_bottom, orient="h")
# Decorations ------------------
# Remove x axis name for the boxplot
ax_bottom.set(xlabel='')
ax_right.set(ylabel='')
# Main Title, Xlabel and YLabel
ax_main.set(title='Scatterplot with Histograms \n displ vs hwy', xlabel='displ', ylabel='hwy')
# Set font size of different components
ax_main.title.set_fontsize(20)
for item in([ax_main.xaxis.label, ax_main.yaxis.label]+ ax_main.get_xticklabels()+ ax_main.get_yticklabels()):
item.set_fontsize(14)
plt.show()
8. 相关性热图
相关图用于直观地查看给定数据帧(或二维数组)中所有可能的数值变量对之间的相关性度量。
# Import Dataset
df = pd.read_csv("https://github.com/selva86/datasets/raw/master/mtcars.csv")
# Plot
plt.figure(figsize=(12,10), dpi=80)
sns.heatmap(df.corr(), xticklabels=df.corr().columns, yticklabels=df.corr().columns, cmap='RdYlGn', center=0, annot=True)
# Decorations
plt.title('Correlogram of mtcars', fontsize=22)
plt.xticks(fontsize=12)
plt.yticks(fontsize=12)
plt.show()
9. 变量关系图
成对图是探索性分析中的最爱,用于了解所有可能的数值变量对之间的关系。它是双变量分析的必备工具。
# Load Dataset
df = sns.load_dataset('iris')
# Plot
plt.figure(figsize=(10,8), dpi=80)
sns.pairplot(df, kind="scatter", hue="species", plot_kws=dict(s=80, edgecolor="white", linewidth=2.5))
plt.show()
# Load Dataset
df = sns.load_dataset('iris')
# Plot
plt.figure(figsize=(10,8), dpi=80)
sns.pairplot(df, kind="reg", hue="species")
plt.show()
二、偏差
10. 发散柱状图
如果您想了解项目如何根据单个指标发生变化并可视化该差异的顺序和数量,则发散条是一个很好的工具。它有助于快速区分数据中各组的表现,并且非常直观,可以立即传达要点。
# Prepare Data
df = pd.read_csv("https://github.com/selva86/datasets/raw/master/mtcars.csv")
x = df.loc[:,['mpg']]
df['mpg_z']=(x - x.mean())/x.std()
df['colors']=['red'if x <0else'green'for x in df['mpg_z']]
df.sort_values('mpg_z', inplace=True)
df.reset_index(inplace=True)
# Draw plot
plt.figure(figsize=(14,10), dpi=80)
plt.hlines(y=df.index, xmin=0, xmax=df.mpg_z, color=df.colors, alpha=0.4, linewidth=5)
# Decorations
plt.gca().set(ylabel='$Model$', xlabel='$Mileage$')
plt.yticks(df.index, df.cars, fontsize=12)
plt.title('Diverging Bars of Car Mileage', fontdict={'size':20})
plt.grid(linestyle='--', alpha=0.5)
plt.show()
11. 分散文本图
发散文本与发散条类似,如果您想以漂亮且美观的方式显示图表中每个项目的值,则首选发散文本。
# Prepare Data
df = pd.read_csv("https://github.com/selva86/datasets/raw/master/mtcars.csv")
x = df.loc[:,['mpg']]
df['mpg_z']=(x - x.mean())/x.std()
df['colors']=['red'if x <0else'green'for x in df['mpg_z']]
df.sort_values('mpg_z', inplace=True)
df.reset_index(inplace=True)
# Draw plot
plt.figure(figsize=(14,14), dpi=80)
plt.hlines(y=df.index, xmin=0, xmax=df.mpg_z)
for x, y, tex in zip(df.mpg_z, df.index, df.mpg_z):
t = plt.text(x, y, round(tex,2), horizontalalignment='right'if x <0else'left',
verticalalignment='center', fontdict={'color':'red'if x <0else'green','size':14})
# Decorations
plt.yticks(df.index, df.cars, fontsize=12)
plt.title('Diverging Text Bars of Car Mileage', fontdict={'size':20})
plt.grid(linestyle='--', alpha=0.5)
plt.xlim(-2.5,2.5)
plt.show()
12.发散点图
发散点图也类似于发散条形图。然而,与发散的条形图相比,没有条形图会减少组之间的对比度和差异。
# Prepare Data
df = pd.read_csv("https://github.com/selva86/datasets/raw/master/mtcars.csv")
x = df.loc[:,['mpg']]
df['mpg_z']=(x - x.mean())/x.std()
df['colors']=['red'if x <0else'darkgreen'for x in df['mpg_z']]
df.sort_values('mpg_z', inplace=True)
df.reset_index(inplace=True)
# Draw plot
plt.figure(figsize=(14,16), dpi=80)
plt.scatter(df.mpg_z, df.index, s=450, alpha=.6, color=df.colors)
for x, y, tex in zip(df.mpg_z, df.index, df.mpg_z):
t = plt.text(x, y, round(tex,1), horizontalalignment='center',
verticalalignment='center', fontdict={'color':'white'})
# Decorations
# Lighten borders
plt.gca().spines["top"].set_alpha(.3)
plt.gca().spines["bottom"].set_alpha(.3)
plt.gca().spines["right"].set_alpha(.3)
plt.gca().spines["left"].set_alpha(.3)
plt.yticks(df.index, df.cars)
plt.title('Diverging Dotplot of Car Mileage', fontdict={'size':20})
plt.xlabel('$Mileage$')
plt.grid(linestyle='--', alpha=0.5)
plt.xlim(-2.5,2.5)
plt.show()
13. 带标记的发散棒棒糖图
带标记的棒棒糖提供了一种灵活的方式来可视化差异,方法是将重点放在您想要引起注意的任何重要数据点上,并在图表中适当地给出推理。
# Prepare Data
df = pd.read_csv("https://github.com/selva86/datasets/raw/master/mtcars.csv")
x = df.loc[:,['mpg']]
df['mpg_z']=(x - x.mean())/x.std()
df['colors']='black'
# color fiat differently
df.loc[df.cars =='Fiat X1-9','colors']='darkorange'
df.sort_values('mpg_z', inplace=True)
df.reset_index(inplace=True)
# Draw plot
import matplotlib.patches as patches
plt.figure(figsize=(14,16), dpi=80)
plt.hlines(y=df.index, xmin=0, xmax=df.mpg_z, color=df.colors, alpha=0.4, linewidth=1)
plt.scatter(df.mpg_z, df.index, color=df.colors, s=[600if x =='Fiat X1-9'else300for x in df.cars], alpha=0.6)
plt.yticks(df.index, df.cars)
plt.xticks(fontsize=12)
# Annotate
plt.annotate('Mercedes Models', xy=(0.0,11.0), xytext=(1.0,11), xycoords='data',
fontsize=15, ha='center', va='center',
bbox=dict(boxstyle='square', fc='firebrick'),
arrowprops=dict(arrowstyle='-[, widthB=2.0, lengthB=1.5', lw=2.0, color='steelblue'), color='white')
# Add Patches
p1 = patches.Rectangle((-2.0,-1), width=.3, height=3, alpha=.2, facecolor='red')
p2 = patches.Rectangle((1.5,27), width=.8, height=5, alpha=.2, facecolor='green')
plt.gca().add_patch(p1)
plt.gca().add_patch(p2)
# Decorate
plt.title('Diverging Bars of Car Mileage', fontdict={'size':20})
plt.grid(linestyle='--', alpha=0.5)
plt.show()
14.面积图
通过对轴和线之间的区域进行着色,面积图不仅更加强调波峰和波谷,还更加强调高点和低点的持续时间。高点持续的时间越长,线下的面积就越大。
import numpy as np
import pandas as pd
# Prepare Data
df = pd.read_csv("https://github.com/selva86/datasets/raw/master/economics.csv", parse_dates=['date']).head(100)
x = np.arange(df.shape[0])
y_returns =(df.psavert.diff().fillna(0)/df.psavert.shift(1)).fillna(0)*100
# Plot
plt.figure(figsize=(16,10), dpi=80)
plt.fill_between(x[1:], y_returns[1:],0, where=y_returns[1:]>=0, facecolor='green', interpolate=True, alpha=0.7)
plt.fill_between(x[1:], y_returns[1:],0, where=y_returns[1:]<=0, facecolor='red', interpolate=True, alpha=0.7)
# Annotate
plt.annotate('Peak \n1975', xy=(94.0,21.0), xytext=(88.0,28),
bbox=dict(boxstyle='square', fc='firebrick'),
arrowprops=dict(facecolor='steelblue', shrink=0.05), fontsize=15, color='white')
# Decorations
xtickvals =[str(m)[:3].upper()+"-"+str(y)for y,m in zip(df.date.dt.year, df.date.dt.month_name())]
plt.gca().set_xticks(x[::6])
plt.gca().set_xticklabels(xtickvals[::6], rotation=90, fontdict={'horizontalalignment':'center','verticalalignment':'center_baseline'})
plt.ylim(-35,35)
plt.xlim(1,100)
plt.title("Month Economics Return %", fontsize=22)
plt.ylabel('Monthly returns %')
plt.grid(alpha=0.5)
plt.show()
三、排序
15. 有序条形图
有序条形图有效地传达了项目的排名顺序。但是,将指标的值添加到图表上方,用户可以从图表本身获得精确的信息。这是基于计数或任何给定指标可视化项目的经典方法。查看有关 实现和解释有序条形图的免费视频教程。
# Prepare Data
df_raw = pd.read_csv("https://github.com/selva86/datasets/raw/master/mpg_ggplot2.csv")
df = df_raw[['cty','manufacturer']].groupby('manufacturer').apply(lambda x: x.mean())
df.sort_values('cty', inplace=True)
df.reset_index(inplace=True)
# Draw plot
import matplotlib.patches as patches
fig, ax = plt.subplots(figsize=(16,10), facecolor='white', dpi=80)
ax.vlines(x=df.index, ymin=0, ymax=df.cty, color='firebrick', alpha=0.7, linewidth=20)
# Annotate Text
for i, cty in enumerate(df.cty):
ax.text(i, cty+0.5, round(cty,1), horizontalalignment='center')
# Title, Label, Ticks and Ylim
ax.set_title('Bar Chart for Highway Mileage', fontdict={'size':22})
ax.set(ylabel='Miles Per Gallon', ylim=(0,30))
plt.xticks(df.index, df.manufacturer.str.upper(), rotation=60, horizontalalignment='right', fontsize=12)
# Add patches to color the X axis labels
p1 = patches.Rectangle((.57,-0.005), width=.33, height=.13, alpha=.1, facecolor='green', transform=fig.transFigure)
p2 = patches.Rectangle((.124,-0.005), width=.446, height=.13, alpha=.1, facecolor='red', transform=fig.transFigure)
fig.add_artist(p1)
fig.add_artist(p2)
plt.show()
16. 棒棒糖图表
棒棒糖图以视觉上令人愉悦的方式与有序条形图具有类似的用途。
# Prepare Data
df_raw = pd.read_csv("https://github.com/selva86/datasets/raw/master/mpg_ggplot2.csv")
df = df_raw[['cty','manufacturer']].groupby('manufacturer').apply(lambda x: x.mean())
df.sort_values('cty', inplace=True)
df.reset_index(inplace=True)
# Draw plot
fig, ax = plt.subplots(figsize=(16,10), dpi=80)
ax.vlines(x=df.index, ymin=0, ymax=df.cty, color='firebrick', alpha=0.7, linewidth=2)
ax.scatter(x=df.index, y=df.cty, s=75, color='firebrick', alpha=0.7)
# Title, Label, Ticks and Ylim
ax.set_title('Lollipop Chart for Highway Mileage', fontdict={'size':22})
ax.set_ylabel('Miles Per Gallon')
ax.set_xticks(df.index)
ax.set_xticklabels(df.manufacturer.str.upper(), rotation=60, fontdict={'horizontalalignment':'right','size':12})
ax.set_ylim(0,30)
# Annotate
for row in df.itertuples():
ax.text(row.Index, row.cty+.5, s=round(row.cty,2), horizontalalignment='center', verticalalignment='bottom', fontsize=14)
plt.show()
17. 点图
点图传达了项目的排名顺序。由于它沿水平轴对齐,因此您可以更轻松地直观地看到点之间的距离。
# Prepare Data
df_raw = pd.read_csv("https://github.com/selva86/datasets/raw/master/mpg_ggplot2.csv")
df = df_raw[['cty','manufacturer']].groupby('manufacturer').apply(lambda x: x.mean())
df.sort_values('cty', inplace=True)
df.reset_index(inplace=True)
# Draw plot
fig, ax = plt.subplots(figsize=(16,10), dpi=80)
ax.hlines(y=df.index, xmin=11, xmax=26, color='gray', alpha=0.7, linewidth=1, linestyles='dashdot')
ax.scatter(y=df.index, x=df.cty, s=75, color='firebrick', alpha=0.7)
# Title, Label, Ticks and Ylim
ax.set_title('Dot Plot for Highway Mileage', fontdict={'size':22})
ax.set_xlabel('Miles Per Gallon')
ax.set_yticks(df.index)
ax.set_yticklabels(df.manufacturer.str.title(), fontdict={'horizontalalignment':'right'})
ax.set_xlim(10,27)
plt.show()
18. 斜率图
斜率图最适合比较给定人员/项目的“之前”和“之后”位置。
import matplotlib.lines as mlines
# Import Data
df = pd.read_csv("https://raw.githubusercontent.com/selva86/datasets/master/gdppercap.csv")
left_label =[str(c)+', '+ str(round(y))for c, y in zip(df.continent, df['1952'])]
right_label =[str(c)+', '+ str(round(y))for c, y in zip(df.continent, df['1957'])]
klass =['red'if(y1-y2)<0else'green'for y1, y2 in zip(df['1952'], df['1957'])]
# draw line
# https://stackoverflow.com/questions/36470343/how-to-draw-a-line-with-matplotlib/36479941
def newline(p1, p2, color='black'):
ax = plt.gca()
l = mlines.Line2D([p1[0],p2[0]],[p1[1],p2[1]], color='red'if p1[1]-p2[1]>0else'green', marker='o', markersize=6)
ax.add_line(l)
return l
fig, ax = plt.subplots(1,1,figsize=(14,14), dpi=80)
# Vertical Lines
ax.vlines(x=1, ymin=500, ymax=13000, color='black', alpha=0.7, linewidth=1, linestyles='dotted')
ax.vlines(x=3, ymin=500, ymax=13000, color='black', alpha=0.7, linewidth=1, linestyles='dotted')
# Points
ax.scatter(y=df['1952'], x=np.repeat(1, df.shape[0]), s=10, color='black', alpha=0.7)
ax.scatter(y=df['1957'], x=np.repeat(3, df.shape[0]), s=10, color='black', alpha=0.7)
# Line Segmentsand Annotation
for p1, p2, c in zip(df['1952'], df['1957'], df['continent']):
newline([1,p1],[3,p2])
ax.text(1-0.05, p1, c +', '+ str(round(p1)), horizontalalignment='right', verticalalignment='center', fontdict={'size':14})
ax.text(3+0.05, p2, c +', '+ str(round(p2)), horizontalalignment='left', verticalalignment='center', fontdict={'size':14})
# 'Before' and 'After' Annotations
ax.text(1-0.05,13000,'BEFORE', horizontalalignment='right', verticalalignment='center', fontdict={'size':18,'weight':700})
ax.text(3+0.05,13000,'AFTER', horizontalalignment='left', verticalalignment='center', fontdict={'size':18,'weight':700})
# Decoration
ax.set_title("Slopechart: Comparing GDP Per Capita between 1952 vs 1957", fontdict={'size':22})
ax.set(xlim=(0,4), ylim=(0,14000), ylabel='Mean GDP Per Capita')
ax.set_xticks([1,3])
ax.set_xticklabels(["1952","1957"])
plt.yticks(np.arange(500,13000,2000), fontsize=12)
# Lighten borders
plt.gca().spines["top"].set_alpha(.0)
plt.gca().spines["bottom"].set_alpha(.0)
plt.gca().spines["right"].set_alpha(.0)
plt.gca().spines["left"].set_alpha(.0)
plt.show()
19. 哑铃图
哑铃图传达了各种项目的“之前”和“之后”位置以及项目的排名顺序。如果您想可视化特定项目计划对不同对象的影响,它非常有用。
import matplotlib.lines as mlines
# Import Data
df = pd.read_csv("https://raw.githubusercontent.com/selva86/datasets/master/health.csv")
df.sort_values('pct_2014', inplace=True)
df.reset_index(inplace=True)
# Func to draw line segment
def newline(p1, p2, color='black'):
ax = plt.gca()
l = mlines.Line2D([p1[0],p2[0]],[p1[1],p2[1]], color='skyblue')
ax.add_line(l)
return l
# Figure and Axes
fig, ax = plt.subplots(1,1,figsize=(14,14), facecolor='#f7f7f7', dpi=80)
# Vertical Lines
ax.vlines(x=.05, ymin=0, ymax=26, color='black', alpha=1, linewidth=1, linestyles='dotted')
ax.vlines(x=.10, ymin=0, ymax=26, color='black', alpha=1, linewidth=1, linestyles='dotted')
ax.vlines(x=.15, ymin=0, ymax=26, color='black', alpha=1, linewidth=1, linestyles='dotted')
ax.vlines(x=.20, ymin=0, ymax=26, color='black', alpha=1, linewidth=1, linestyles='dotted')
# Points
ax.scatter(y=df['index'], x=df['pct_2013'], s=50, color='#0e668b', alpha=0.7)
ax.scatter(y=df['index'], x=df['pct_2014'], s=50, color='#a3c4dc', alpha=0.7)
# Line Segments
for i, p1, p2 in zip(df['index'], df['pct_2013'], df['pct_2014']):
newline([p1, i],[p2, i])
# Decoration
ax.set_facecolor('#f7f7f7')
ax.set_title("Dumbell Chart: Pct Change - 2013 vs 2014", fontdict={'size':22})
ax.set(xlim=(0,.25), ylim=(-1,27), ylabel='Mean GDP Per Capita')
ax.set_xticks([.05,.1,.15,.20])
ax.set_xticklabels(['5%','15%','20%','25%'])
ax.set_xticklabels(['5%','15%','20%','25%'])
plt.show()
四、分布
20.连续变量的直方图
直方图显示给定变量的频率分布。下面的表示根据分类变量对频率条进行分组,从而更好地了解连续变量和分类变量的串联。在此免费视频教程中创建直方图并学习如何解释它们。
# Import Data
df = pd.read_csv("https://github.com/selva86/datasets/raw/master/mpg_ggplot2.csv")
# Prepare data
x_var ='displ'
groupby_var ='class'
df_agg = df.loc[:,[x_var, groupby_var]].groupby(groupby_var)
vals =[df[x_var].values.tolist()for i, df in df_agg]
# Draw
plt.figure(figsize=(16,9), dpi=80)
colors =[plt.cm.Spectral(i/float(len(vals)-1))for i in range(len(vals))]
n, bins, patches = plt.hist(vals,30, stacked=True, density=False, color=colors[:len(vals)])
# Decoration
plt.legend({group:col for group, col in zip(np.unique(df[groupby_var]).tolist(), colors[:len(vals)])})
plt.title(f"Stacked Histogram of ${x_var}$ colored by ${groupby_var}$", fontsize=22)
plt.xlabel(x_var)
plt.ylabel("Frequency")
plt.ylim(0,25)
plt.xticks(ticks=bins[::3], labels=[round(b,1)for b in bins[::3]])
plt.show()
21. 分类变量的直方图
分类变量的直方图显示该变量的频率分布。通过对条形进行着色,您可以可视化与表示颜色的另一个分类变量相关的分布。
# Import Data
df = pd.read_csv("https://github.com/selva86/datasets/raw/master/mpg_ggplot2.csv")
# Prepare data
x_var ='manufacturer'
groupby_var ='class'
df_agg = df.loc[:,[x_var, groupby_var]].groupby(groupby_var)
vals =[df[x_var].values.tolist()for i, df in df_agg]
# Draw
plt.figure(figsize=(16,9), dpi=80)
colors =[plt.cm.Spectral(i/float(len(vals)-1))for i in range(len(vals))]
n, bins, patches = plt.hist(vals, df[x_var].unique().__len__(), stacked=True, density=False, color=colors[:len(vals)])
# Decoration
plt.legend({group:col for group, col in zip(np.unique(df[groupby_var]).tolist(), colors[:len(vals)])})
plt.title(f"Stacked Histogram of ${x_var}$ colored by ${groupby_var}$", fontsize=22)
plt.xlabel(x_var)
plt.ylabel("Frequency")
plt.ylim(0,40)
plt.xticks(ticks=bins, labels=np.unique(df[x_var]).tolist(), rotation=90, horizontalalignment='left')
plt.show()
22. 密度图
密度图是可视化连续变量分布的常用工具。通过按“响应”变量对它们进行分组,您可以检查 X 和 Y 之间的关系。以下案例用于代表性目的,以描述城市里程的分布如何随汽缸数量变化。
# Import Data
df = pd.read_csv("https://github.com/selva86/datasets/raw/master/mpg_ggplot2.csv")
# Draw Plot
plt.figure(figsize=(16,10), dpi=80)
sns.kdeplot(df.loc[df['cyl']==4,"cty"], shade=True, color="g", label="Cyl=4", alpha=.7)
sns.kdeplot(df.loc[df['cyl']==5,"cty"], shade=True, color="deeppink", label="Cyl=5", alpha=.7)
sns.kdeplot(df.loc[df['cyl']==6,"cty"], shade=True, color="dodgerblue", label="Cyl=6", alpha=.7)
sns.kdeplot(df.loc[df['cyl']==8,"cty"], shade=True, color="orange", label="Cyl=8", alpha=.7)
# Decoration
plt.title('Density Plot of City Mileage by n_Cylinders', fontsize=22)
plt.legend()
plt.show()
23. 带有直方图的密度曲线
带直方图的密度曲线汇集了两个图传达的集体信息,因此您可以将它们放在一个图中而不是两个图中。
# Import Data
df = pd.read_csv("https://github.com/selva86/datasets/raw/master/mpg_ggplot2.csv")
# Draw Plot
plt.figure(figsize=(13,10), dpi=80)
sns.distplot(df.loc[df['class']=='compact',"cty"], color="dodgerblue", label="Compact", hist_kws={'alpha':.7}, kde_kws={'linewidth':3})
sns.distplot(df.loc[df['class']=='suv',"cty"], color="orange", label="SUV", hist_kws={'alpha':.7}, kde_kws={'linewidth':3})
sns.distplot(df.loc[df['class']=='minivan',"cty"], color="g", label="minivan", hist_kws={'alpha':.7}, kde_kws={'linewidth':3})
plt.ylim(0,0.35)
# Decoration
plt.title('Density Plot of City Mileage by Vehicle Type', fontsize=22)
plt.legend()
plt.show()
24. 密度曲线重叠图
Joy Plot 允许不同组的密度曲线重叠,这是可视化大量组相对于彼此的分布的好方法。它看起来赏心悦目,并且清楚地传达了正确的信息。它可以使用joypy
基于matplotlib
.
# !pip install joypy
# Import Data
mpg = pd.read_csv("https://github.com/selva86/datasets/raw/master/mpg_ggplot2.csv")
# Draw Plot
plt.figure(figsize=(16,10), dpi=80)
fig, axes = joypy.joyplot(mpg, column=['hwy','cty'], by="class", ylim='own', figsize=(14,10))
# Decoration
plt.title('Joy Plot of City and Highway Mileage by Class', fontsize=22)
plt.show()
25. 分布式点图
分布点图显示按组分割的点的单变量分布。点越黑,该区域的数据点越集中。通过对中位数进行不同的着色,各组的真实定位立即变得显而易见。
import matplotlib.patches as mpatches
# Prepare Data
df_raw = pd.read_csv("https://github.com/selva86/datasets/raw/master/mpg_ggplot2.csv")
cyl_colors ={4:'tab:red',5:'tab:green',6:'tab:blue',8:'tab:orange'}
df_raw['cyl_color']= df_raw.cyl.map(cyl_colors)
# Mean and Median city mileage by make
df = df_raw[['cty','manufacturer']].groupby('manufacturer').apply(lambda x: x.mean())
df.sort_values('cty', ascending=False, inplace=True)
df.reset_index(inplace=True)
df_median = df_raw[['cty','manufacturer']].groupby('manufacturer').apply(lambda x: x.median())
# Draw horizontal lines
fig, ax = plt.subplots(figsize=(16,10), dpi=80)
ax.hlines(y=df.index, xmin=0, xmax=40, color='gray', alpha=0.5, linewidth=.5, linestyles='dashdot')
# Draw the Dots
for i, make in enumerate(df.manufacturer):
df_make = df_raw.loc[df_raw.manufacturer==make,:]
ax.scatter(y=np.repeat(i, df_make.shape[0]), x='cty', data=df_make, s=75, edgecolors='gray', c='w', alpha=0.5)
ax.scatter(y=i, x='cty', data=df_median.loc[df_median.index==make,:], s=75, c='firebrick')
# Annotate
ax.text(33,13,"$red \; dots \; are \; the \: median$", fontdict={'size':12}, color='firebrick')
# Decorations
red_patch = plt.plot([],[], marker="o", ms=10, ls="", mec=None, color='firebrick', label="Median")
plt.legend(handles=red_patch)
ax.set_title('Distribution of City Mileage by Make', fontdict={'size':22})
ax.set_xlabel('Miles Per Gallon (City)', alpha=0.7)
ax.set_yticks(df.index)
ax.set_yticklabels(df.manufacturer.str.title(), fontdict={'horizontalalignment':'right'}, alpha=0.7)
ax.set_xlim(1,40)
plt.xticks(alpha=0.7)
plt.gca().spines["top"].set_visible(False)
plt.gca().spines["bottom"].set_visible(False)
plt.gca().spines["right"].set_visible(False)
plt.gca().spines["left"].set_visible(False)
plt.grid(axis='both', alpha=.4, linewidth=.1)
plt.show()
26.箱线图
箱线图是可视化分布的好方法,可以牢记中位数、第 25 个四分位数、第 75 个四分位数和异常值。但是,您需要小心解释框的大小,这可能会扭曲该组中包含的点数。因此,手动提供每个框中的观测值数量可以帮助克服这个缺点。查看此免费视频课程,使用箱线图可视化数值变量的分布。
例如,左侧的前两个框具有相同大小的框,尽管它们分别有 5 个和 47 个 obs。因此,有必要写下该组中的观察数量。
# Import Data
df = pd.read_csv("https://github.com/selva86/datasets/raw/master/mpg_ggplot2.csv")
# Draw Plot
plt.figure(figsize=(13,10), dpi=80)
sns.boxplot(x='class', y='hwy', data=df, notch=False)
# Add N Obs inside boxplot (optional)
def add_n_obs(df,group_col,y):
medians_dict ={grp[0]:grp[1][y].median()for grp in df.groupby(group_col)}
xticklabels =[x.get_text()for x in plt.gca().get_xticklabels()]
n_obs = df.groupby(group_col)[y].size().values
for(x, xticklabel), n_ob in zip(enumerate(xticklabels), n_obs):
plt.text(x, medians_dict[xticklabel]*1.01,"#obs : "+str(n_ob), horizontalalignment='center', fontdict={'size':14}, color='white')
add_n_obs(df,group_col='class',y='hwy')
# Decoration
plt.title('Box Plot of Highway Mileage by Vehicle Class', fontsize=22)
plt.ylim(10,40)
plt.show()
27. 点+箱线图
点 + 箱线图 传达与分组箱线图类似的信息。此外,这些点还可以让我们了解每组中有多少个数据点。
# Import Data
df = pd.read_csv("https://github.com/selva86/datasets/raw/master/mpg_ggplot2.csv")
# Draw Plot
plt.figure(figsize=(13,10), dpi=80)
sns.boxplot(x='class', y='hwy', data=df, hue='cyl')
sns.stripplot(x='class', y='hwy', data=df, color='black', size=3, jitter=1)
for i in range(len(df['class'].unique())-1):
plt.vlines(i+.5,10,45, linestyles='solid', colors='gray', alpha=0.2)
# Decoration
plt.title('Box Plot of Highway Mileage by Vehicle Class', fontsize=22)
plt.legend(title='Cylinders')
plt.show()
28. 小提琴图
小提琴图是箱线图的视觉上令人愉悦的替代方案。小提琴的形状或面积取决于它所容纳的观测值的数量。然而,小提琴图可能更难阅读,并且在专业环境中并不常用。这个免费的视频教程将训练您如何实现小提琴情节。
# Import Datadf = pd.read_csv("https://github.com/selva86/datasets/raw/master/mpg_ggplot2.csv")
# Draw Plot
plt.figure(figsize=(13,10), dpi=80)
sns.violinplot(x='class', y='hwy', data=df, scale='width', inner='quartile')
# Decoration
plt.title('Violin Plot of Highway Mileage by Vehicle Class', fontsize=22)
plt.show()
29. 金字塔图
金字塔图可用于显示按数量排序的群体分布。或者它也可以用于显示人群的逐步过滤,如下所示,它用于显示有多少人通过营销漏斗的每个阶段。
# Read data
df = pd.read_csv("https://raw.githubusercontent.com/selva86/datasets/master/email_campaign_funnel.csv")
# Draw Plot
plt.figure(figsize=(13,10), dpi=80)
group_col ='Gender'
order_of_bars = df.Stage.unique()[::-1]
colors =[plt.cm.Spectral(i/float(len(df[group_col].unique())-1))for i in range(len(df[group_col].unique()))]
for c, group in zip(colors, df[group_col].unique()):
sns.barplot(x='Users', y='Stage', data=df.loc[df[group_col]==group,:], order=order_of_bars, color=c, label=group)
# Decorations
plt.xlabel("$Users$")
plt.ylabel("Stage of Purchase")
plt.yticks(fontsize=12)
plt.title("Population Pyramid of the Marketing Funnel", fontsize=22)
plt.legend()
plt.show()
30. 分类图
库提供的分类图seaborn
可用于可视化两个或更多分类变量彼此相关的计数分布。
# Load Dataset
titanic = sns.load_dataset("titanic")
# Plot
g = sns.catplot("alive", col="deck", col_wrap=4,
data=titanic[titanic.deck.notnull()],
kind="count", height=3.5, aspect=.8,
palette='tab20')
fig.suptitle('sf')
plt.show()
# Load Dataset
titanic = sns.load_dataset("titanic")
# Plot
sns.catplot(x="age", y="embark_town",
hue="sex", col="class",
data=titanic[titanic.embark_town.notnull()],
orient="h", height=5, aspect=1, palette="tab10",
kind="violin", dodge=True, cut=0, bw=.2)
最后:
Python学习资料
如果你想学习Python帮助你实现自动化办公,或者准备学习Python或者正在学习,下面这些你应该能用得上,有需要可以领取。
① Python所有方向的学习路线图,清楚各个方向要学什么东西
② 100多节Python课程视频,涵盖必备基础、爬虫和数据分析
③ 100多个Python实战案例,学习不再是只会理论
④ 华为出品独家Python漫画教程,手机也能学习
⑤历年互联网企业Python面试真题,复习时非常方便
文末有领取方式哦
一、Python所有方向的学习路线
Python所有方向路线就是把Python常用的技术点做整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。
二、Python课程视频
我们在看视频学习的时候,不能光动眼动脑不动手,比较科学的学习方法是在理解之后运用它们,这时候练手项目就很适合了。
三、Python实战案例
光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
四 Python漫画教程
用通俗易懂的漫画,来教你学习Python,让你更容易记住,并且不会枯燥乏味。
五、互联网企业面试真题
我们学习Python必然是为了找到高薪的工作,下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料,并且有阿里大佬给出了权威的解答,刷完这一套面试资料相信大家都能找到满意的工作。
这份完整版的Python全套学习资料已经上传CSDN,朋友们如果需要也可以扫描下方csdn官方二维码或者点击主页和文章下方的微信卡片获取领取方式,【保证100%免费】