如何更新seaborn库_Python 绘图总结(seaborn库的使用) （上）

最新推荐文章于 2024-07-22 10:33:22 发布

兮辞之曰

最新推荐文章于 2024-07-22 10:33:22 发布

阅读量592

点赞数

文章标签：如何更新seaborn库

本文链接：https://blog.csdn.net/weixin_42387906/article/details/113714614

版权

本文介绍了如何使用seaborn库绘制饼状图、柱状图、折线图等常见图表，并通过iris数据集展示了各特征的分布情况，包括kdeplot函数的应用。通过seaborn的pairplot和jointplot，分析了不同类别iris花的特征关系，揭示了petal_length和petal_width在区分iris种类中的关键作用。

摘要由CSDN通过智能技术生成

常见的图表有：饼状图，柱状图(可并列)，折线图，散点图，直方图，叠加柱状图，三维散点图，三维曲面图，箱线图。

下面用seaborn库绘制以上各种类型的图表：

import seaborn as sns

import matplotlib.pyplot as plt

import pandas as pd

data = pd.read_csv(‘iris.csv‘)

dataname = data[‘species‘]

print(data.head())

print(‘------------------‘)

freq = dataname.value_counts(normalize = True) #也可以不归一化，在后面画图时候函数会自动归一化

print(freq)

print(‘------------------‘)

colors = [‘#81ecec‘,‘#ff7675‘,‘#6c5ce7‘]

plt.pie(freq, labels = freq.index, explode = (0.05, 0, 0), autopct = ‘%.1f%%‘, colors = colors, startangle = 90, counterclock = False)

plt.axis(‘square‘)

plt.legend(loc=‘upper right‘, bbox_to_anchor=(1.2, 0.2))

plt.show()

从图表可以看出来，每一类的数据分布是均匀的。

接下来我们看iris中每一个特征分布图，用柱状图表示。

如何生成随机数据供我们学习，numpy可以生成各种分布的数据，下面用kdeplot()来绘图，绘出数据的近似分布密度函数图，如下：

代码：

sns.set_style(‘ticks‘)

sns.set_context(‘paper‘)

x= np.random.uniform(0,1,10000) #均匀分布

y= np.random.normal(0,2,10000) # y ~ N(0,4) 正态分布 scale =标准差S

f=plt.figure()

f.add_subplot(1,2,1)

#plt.title(‘x‘)

sns.kdeplot(x)

f.add_subplot(1,2,2)

#plt.title(‘y‘)

sns.kdeplot(y)

plt.show()

有了上面的练习，再来画出iris数据各个特征的分布核函数：

sns.set_style(‘ticks‘)

sns.set_context(‘paper‘)

f= plt.figure(figsize=(8,6))

with sns.cubehelix_palette(8, gamma = 2): #gamma<1 unclear；gamma>1clear

f.add_subplot(2,2,1)

sns.kdeplot(data[‘sepal_length‘])

f.add_subplot(2,2,2)

sns.kdeplot(data[‘sepal_width‘])

f.add_subplot(2,2,3)

sns.kdeplot(data[‘petal_length‘])

f.add_subplot(2, 2, 4)

sns.kdeplot(data[‘petal_width‘])

plt.show()

我们再看不同类别的相同特征有什么样的分布规律。

sns.set_context(‘paper‘)

f = plt.figure(figsize=(8,6))

labels = dataname.drop_duplicates(inplace=False)

labels = labels.reset_index(drop = True)

featurename = data.columns

print(featurename)

for i in range(3):

cls = data[dataname == labels[i]]

cls.columns = labels[i]+‘_‘+featurename

for j in range(4):

f.add_subplot(2,2,j+1)

plt.title(featurename[j])

sns.kdeplot(cls[labels[i]+‘_‘+featurename[j]])

plt.suptitle("kernel density estimations of the features of different irises")#中文显示问题我还没有解决，之后会出一随笔写有关plt中文显示的问题

plt.show()

可以看出在petal_length和petal_width这两个特征的密度分布函数图中 setosa 和另外两种iris区分很开，所以依据petal_length或者petal_width就足够区分出是否为setosa了；

而另外两种iris 4个特征的密度分布函数均有重叠，需要后序做进一步区分。

前面单单从一个维度(petal_lenght或者petal_width)足够区分出一种花setosa, 对于另外两种花我们期待能在高的维度上区分它们，所以

我们可以作出更高维度的图看能否直观的区分出它们。

from scipy.stats import pearsonr,norm

sns.set_context(‘paper‘)

data1 = data[data[‘species‘]==‘versicolor‘]

data2 = data[data[‘species‘]==‘virginica‘]

sns.jointplot(x = ‘sepal_length‘, y = ‘sepal_width‘, data = data1,

marginal_kws=dict(bins = 20, kde = True, fit = norm, fit_kws = {‘color‘: ‘r‘},

rug = True),stat_func = pearsonr, linewidth = 1, space = 0, color = ‘b‘).set_axis_labels(‘versicolor_sepal_length‘,‘versicolor_sepal_width‘)

plt.suptitle(‘versicolor\‘s sepal feature‘)

ax = sns.jointplot(data2[‘sepal_length‘],data2[‘sepal_width‘],marginal_kws=dict(bins = 20, kde = True, fit = norm, fit_kws = {‘color‘: ‘r‘},

rug = True),stat_func = pearsonr, space = 0, color = ‘g‘,kind = ‘scatter‘) #kind = ‘scatter‘, ‘reg‘, ‘resid‘, ‘kde‘, ‘hex‘

ax.plot_joint(sns.kdeplot, zorder = 0, n_levels = 6)#在前面一个图的基础上在加上核密度估计的联合密度分布图，通过plot_joint()实现。

plt.suptitle(‘virginica\‘s sepal feature‘)

plt.show()

从这两个图我们可以看出sepal_length和sepal_width有正相关关系，由于仅仅由一个sepal_length或者sepal_width,我们是无法区别这两种花的,看了两种花的sepal_length or width 分布后我们可以知道仅仅由这两个数据我们依然无法区分sepal width, 左边图的中心在(6，2.5)左右，右边图的中心在(6.8，3)左右，两中心距离较近，且可以看出feature向量分布很散。

现在需要将两个图合并为一个图，这样我们可以更清楚的判断能否仅仅通过sepal数据来区分这两种iris。

我们需要用到pairplot()函数：

‘‘‘

seaborn.pairplot(data，hue = None，hue_order = None，palette = None，vars = None，x_vars = None，y_vars = None，kind =‘scatter’，

diag_kind =‘auto’，markers = None，s = 2.5，aspect = 1，dropna = True，plot_kws = None，diag_kws = None，grid_kws = None)

‘‘‘

sns.set_context(‘paper‘)

new_data = data[data[‘species‘]!=‘setosa‘]

print(new_data.head())

new_data.reset_index(drop = True, inplace = True)

print(new_data.head())

ax = sns.pairplot(new_data,