可视化视图

散点图

示例代码:

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
# 数据准备
N = 1000
x = np.random.randn(N)#随机生成N个点
y = np.random.randn(N)
# 用Seaborn画散点图
df = pd.DataFrame({'x': x, 'y': y})
sns.jointplot(x="x", y="y", data=df, kind='scatter');# x y 是中的下标,data是待传入的数据,kind表示不同的视图绘制方式。
plt.show()

  Seaborn图是一个正方形,不仅显示出散点图,也给出了这两个变量的分布情况。
在这里插入图片描述

折线图

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
# 数据准备
x = [2010, 2011, 2012, 2013, 2014, 2015, 2016, 2017, 2018, 2019]
y = [5, 3, 6, 20, 17, 16, 19, 30, 32, 35]
# 使用Seaborn画折线图
df = pd.DataFrame({'x': x, 'y': y})
sns.lineplot(x="x", y="y", data=df)# x y 是data中的下标。data是待传入的数据,一般是DataFrame类型
plt.show()

在这里插入图片描述

直方图

直方图可以看到变量的数值分布。

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
# 数据准备
a = np.random.randn(100)
s = pd.Series(a)
# 用Seaborn画直方图
sns.distplot(s, kde=False)# kde 代表显示核密度估计
plt.show()
sns.distplot(s, kde=True)
plt.show()

kde=false:kde=false
kde = True:(显示核密度估计)
在这里插入图片描述

条形图

条形图可以辅助查看类别的特征。长条形的长度表示类别的频数,宽度表示类别。
使用sns.barplot(x=None,y=None,data=None)函数。其中参数data为DataFrame类型,x、y是data中的变量。

import matplotlib.pyplot as plt
import seaborn as sns
# 数据准备
x = ['Cat1', 'Cat2', 'Cat3', 'Cat4', 'Cat5']
y = [5, 4, 8, 12, 7]
# 用Seaborn画条形图
sns.barplot(x, y)
plt.show()

条形图

箱线图

  箱线图,又称盒式图,它是在 1977 年提出的,由五个数值点组成:最大值 (max)、最小值 (min)、中位数 (median) 和上下四分位数 (Q3, Q1)。它可以帮我们分析出数据的差异性、离散程度和异常值等。
  在Seaborn 中,我们使用 sns.boxplot(x=None, y=None, data=None) 函数。其中参数 data 为 DataFrame 类型,x、y 是 data 中的变量。

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import seaborn as sns
# 数据准备
# 生成0-1之间的10*4维度数据
data=np.random.normal(size=(10,4))
lables = ['A','B','C','D']
# 用Matplotlib画箱线图
plt.boxplot(data,labels=lables)
plt.show()
# 用Seaborn画箱线图
df = pd.DataFrame(data, columns=lables)
sns.boxplot(data=df)
plt.show()

在这里插入图片描述

饼状图

  饼图是常用的统计学模块,可以显示每个部分大小与总和之间的比例。主要采用Matplotlib的pie函数实现。使用 plt.pie(x, labels=None) 函数,其中参数 x 代表要绘制饼图的数据,labels 是缺省值,可以为饼图添加标签。

import matplotlib.pyplot as plt
# 数据准备
nums = [25, 37, 33, 37, 6]
labels = ['High-school','Bachelor','Master','Ph.d', 'Others']
# 用Matplotlib画饼图
plt.pie(x = nums, labels=labels)
plt.show()

在这里插入图片描述

热力图

  热力图是一种直观的多远变量分析方法,英文叫 heat map,是一种矩阵表示方法,其中矩阵中的元素值用颜色来代表,不同的颜色代表不同大小的值。通过颜色就能直观地知道某个位置上数值的大小。也可将某一位置上的颜色,与数据集中的其他位置颜色进行比较。
  一般使用 Seaborn 中的 sns.heatmap(data) 函数,其中 data 代表需要绘制的热力图数据。

import matplotlib.pyplot as plt
import seaborn as sns
# 数据准备 采用seaborn中自带的数据集flights。该数据集记录了 1949 年到 1960 年期间,每个月的航班乘客的数量。import matplotlib.pyplot as plt
flights = sns.load_dataset("flights")
data=flights.pivot('year','month','passengers')
# 用Seaborn画热力图
sns.heatmap(data)
plt.show()

  通过heatmap函数绘制的热力图,我们可以观察到不同年份,不同月份的乘客数量变化情况,其中颜色越浅的代表乘客数量越多,如下图所示:
在这里插入图片描述

蜘蛛图

  蜘蛛图是一种显示一对多关系的方法。在蜘蛛图中,一个变量相对于另一个变量的显著性是清晰可见的。
  例如绘制游戏王者荣耀的战力图,指标包括:推进、KDA
、生存、团战、发育和输出。lables和stats分别保存这些属性的名称和属性值。此外还需设定存储统计结果数值的stats数组和存储角度的angles数组。为了便于绘制图形的收尾相接,还需要在原有angles 和stats数组上增加数组的第一个元素。

import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from matplotlib.font_manager import FontProperties
# 数据准备
labels=np.array([u"推进","KDA",u"生存",u"团战",u"发育",u"输出"])
stats=[83, 61, 95, 67, 76, 88]
# 画图数据准备,角度、状态值
angles=np.linspace(0, 2*np.pi, len(labels), endpoint=False)
stats=np.concatenate((stats,[stats[0]]))
angles=np.concatenate((angles,[angles[0]]))
# 用Matplotlib画蜘蛛图
fig = plt.figure()
ax = fig.add_subplot(111, polar=True)
ax.plot(angles, stats, 'o-', linewidth=2)
ax.fill(angles, stats, alpha=0.25)
# 设置中文字体
font = FontProperties(fname=r"C:\Windows\Fonts\simhei.ttf", size=14)
ax.set_thetagrids(angles * 180/np.pi, labels, FontProperties=font)
plt.show()

在这里插入图片描述

成对关系

  sns.pairplot() 函数是探索性分析中的常用函数,可以很快帮我们理解变量对之间的关系,探索数据集中的多个成对双变量的分布。它会同时展示出 DataFrame 中每对变量的关系,另外在对角线上,你能看到每个变量自身作为单变量的分布情况。
  下例使用 Seaborn 中自带的 iris 数据集(鸢尾花数据集)。鸢尾花可以分成 Setosa、Versicolour 和 Virginica 三个品种,在这个数据集中,针对每一个品种,都有 50 个数据,每个数据中包括了 4 个属性,分别是花萼长度(sepal_length)、花萼宽度(sepal_width)、花瓣长度(petal_length)和花瓣宽度(petal_width)。通过这些数据,需要你来预测鸢尾花卉属于三个品种中的哪一种。

import matplotlib.pyplot as plt
import seaborn as sns
# 数据准备
iris = sns.load_dataset('iris')
# 用Seaborn画成对关系
sns.pairplot(iris)
plt.show()

下面这张图相当于这 4 个变量两两之间的关系:
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

xiu_cs

你的鼓励是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值