手摸手教你数据可视化！（附实例讲解）

最新推荐文章于 2023-01-15 09:52:58 发布

Datawhale

最新推荐文章于 2023-01-15 09:52:58 发布

阅读量703

点赞数 3

文章标签：数学建模 ddk cstring lnmp 算法导论

本文链接：https://blog.csdn.net/Datawhale/article/details/108313620

版权

↑↑↑关注后"星标"Datawhale

每日干货 & 每月组队学习，不错过

Datawhale干货

作者：CrescentAI，华南理工大学，Datawhale优秀学习者

前言

本文对课程数据集及泰坦尼克号数据集进行了实例讲解，一步一步带你绘制数据可视化中常用的五种图形，并对数据间可能存在的相关性做出了阐述。

绘制常用图形

常用图形有：

plt.scatter() 散点图
plt.plot() 折线图
plt.bar() 直方图
plt.pie() 饼图
plt.boxplot() 箱型图

本次实例数据集可在后台回复【学生成绩】来获取。

#导入相应的包
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline

#图可以显示中文和负号
plt.rcParams['font.sans-serif']='SimHei'
plt.rcParams['axes.unicode_minus']=False

data = pd.read_excel("D:\data\student-score\student-score.xlsx")
data.head()

data = data.drop(columns = ["序号","品德","科学"],axis = 1) #由于品德和科学的总分与其他学科不一致,为了图片显示效果,删除这两个学科成绩

data.loc[:,"总分"] = data.loc[:,"语文"] + data.loc[:,"数学"] + data.loc[:,"英语"]  #重新计算总分成绩
data.head()

接着我们还可以查看其数据结构：

data.shape  #查看数据结构

# 输出
(629, 6)

以及查看各学科的缺失值情况：

data.isnull().sum()  #查看缺失值情况

'''
姓名    0
学校    0
语文    1
数学    0
英语    0
总分    1
dtype: int64
'''

对于这些缺失值，我们可以选择使用dropna()函数删除：

data = data.dropna()  #删除缺失值
data.shape  # (628, 6)

再使用describe()函数进行简单的统计描述：

data.describe()  #简单统计描述

散点图

gp = data.groupby(by = "学校",as_index=False)  #以学校为分组依据进行分组
data1=gp.mean() #分组后的聚合运算为计算均值
data1.head()

得到结果：

# 绘制各学科成绩散点图
plt.figure(figsize=(6,4))
plt.scatter(data1["总分"],data1["语文"],marker='v')
plt.scatter(data1["总分"],data1["数学"],marker='o')
plt.scatter(data1["总分"],data1["英语"],marker='*')
plt.title("各学校成绩散点图",fontsize = 14)
plt.xlabel("总成绩")
plt.ylabel("各学科成绩")
plt.legend(["语文","数学","英语"]);