数据分析可视化复现

最新推荐文章于 2022-12-19 17:21:44 发布

徐念安

最新推荐文章于 2022-12-19 17:21:44 发布

阅读量477

点赞数

分类专栏：数据科学文章标签：数据分析可视化 Python

本文链接：https://blog.csdn.net/geekmubai/article/details/87080287

版权

数据科学专栏收录该内容

25 篇文章 7 订阅

订阅专栏

import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

import warnings
warnings.filterwarnings("ignore")

df = pd.read_csv("./data/HR.csv")

df = df[df["last_evaluation"]<=1][df["salary"]!="nme"][df["department"]!="sale"]

树状图

sns.countplot(x="salary",data=df)

<matplotlib.axes._subplots.AxesSubplot at 0x1a1873c048>

png

sns.countplot(x="salary",hue="department",data=df)

<matplotlib.axes._subplots.AxesSubplot at 0x1a182c0d30>

png

绘制直方图

f = plt.figure()
f.add_subplot(131)
sns.distplot(df["satisfaction_level"],bins=10)

<matplotlib.axes._subplots.AxesSubplot at 0x1a17815748>

png

f = plt.figure()
f.add_subplot(131)
sns.distplot(df["satisfaction_level"],bins=10,kde=False)

<matplotlib.axes._subplots.AxesSubplot at 0x113840f98>

png

f = plt.figure()
f.add_subplot(131)
sns.distplot(df["satisfaction_level"],bins=10,hist=False)

<matplotlib.axes._subplots.AxesSubplot at 0x1a17c3e9b0>

png

f = plt.figure()
f.add_subplot(131)
sns.distplot(df["satisfaction_level"],bins=10)
f.add_subplot(132)
sns.distplot(df["last_evaluation"],bins=10)
f.add_subplot(133)
sns.distplot(df["average_monthly_hours"],bins=10)

<matplotlib.axes._subplots.AxesSubplot at 0x1a17d31160>

png

箱线图

sns.boxplot(y=df["time_spend_company"])

<matplotlib.axes._subplots.AxesSubplot at 0x1a17f06128>

png

sns.boxplot(x=df["time_spend_company"],saturation=0.75,whis=3)

<matplotlib.axes._subplots.AxesSubplot at 0x1a18e94b70>

png

折线图

sub_df = df.groupby("time_spend_company").mean()

sns.pointplot(sub_df.index,sub_df["left"])

<matplotlib.axes._subplots.AxesSubplot at 0x1a19e08208>

png

sns.pointplot(x="time_spend_company",y="left",data=df)

<matplotlib.axes._subplots.AxesSubplot at 0x1a1919c6d8>

png

lbs = df["department"].value_counts().index
plt.pie(df["department"].value_counts(normalize=True),labels=lbs,autopct="%1.1f%%")
plt.show()

png

lbs = df["department"].value_counts().index 
explodes=[0.1 if i=="sales" else 0 for i in lbs]
plt.pie(df["department"].value_counts(normalize=True),explode=explodes,labels=lbs,autopct="%1.1f%%")
plt.show()

png

lbs = df["salary"].value_counts().index 
explodes=[0.1 if i=="low" else 0 for i in lbs]
plt.pie(df["salary"].value_counts(normalize=True),explode=explodes,labels=lbs,autopct="%1.1f%%")
plt.show()