↑↑↑关注后"星标"Datawhale
每日干货 & 每月组队学习,不错过
Datawhale干货
作者:CrescentAI,华南理工大学,Datawhale优秀学习者
前言
本文对课程数据集及泰坦尼克号数据集进行了实例讲解,一步一步带你绘制数据可视化中常用的五种图形,并对数据间可能存在的相关性做出了阐述。
绘制常用图形
常用图形有:
plt.scatter() 散点图
plt.plot() 折线图
plt.bar() 直方图
plt.pie() 饼图
plt.boxplot() 箱型图
本次实例数据集可在后台回复【学生成绩】来获取。
#导入相应的包
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
#图可以显示中文和负号
plt.rcParams['font.sans-serif']='SimHei'
plt.rcParams['axes.unicode_minus']=False
data = pd.read_excel("D:\data\student-score\student-score.xlsx")
data.head()
data = data.drop(columns = ["序号","品德","科学"],axis = 1) #由于品德和科学的总分与其他学科不一致,为了图片显示效果,删除这两个学科成绩
data.loc[:,"总分"] = data.loc[:,"语文"] + data.loc[:,"数学"] + data.loc[:,"英语"] #重新计算总分成绩
data.head()
接着我们还可以查看其数据结构:
data.shape #查看数据结构
# 输出
(629, 6)
以及查看各学科的缺失值情况:
data.isnull().sum() #查看缺失值情况
'''
姓名 0
学校 0
语文 1
数学 0
英语 0
总分 1
dtype: int64
'''
对于这些缺失值,我们可以选择使用dropna()
函数删除:
data = data.dropna() #删除缺失值
data.shape # (628, 6)
再使用describe()
函数进行简单的统计描述:
data.describe() #简单统计描述
散点图
gp = data.groupby(by = "学校",as_index=False) #以学校为分组依据进行分组
data1=gp.mean() #分组后的聚合运算为计算均值
data1.head()
得到结果:
# 绘制各学科成绩散点图
plt.figure(figsize=(6,4))
plt.scatter(data1["总分"],data1["语文"],marker='v')
plt.scatter(data1["总分"],data1["数学"],marker='o')
plt.scatter(data1["总分"],data1["英语"],marker='*')
plt.title("各学校成绩散点图",fontsize = 14)
plt.xlabel("总成绩")
plt.ylabel("各学科成绩")
plt.legend(["语文","数学","英语"]);