2 第二章:数据可视化
开始之前,导入numpy、pandas以及matplotlib包和数据
2.7 如何让人一眼看懂你的数据?
《Python for Data Analysis》第九章
任务一:跟着书本第九章,了解matplotlib,自己创建一个数据项,对其进行基本可视化
任务二:可视化展示泰坦尼克号数据集中男女中生存人数分布情况(用柱状图试试)。
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import matplotlib
df = pd.read_csv(r'result.csv')
#df.head()
matplotlib.rcParams['font.sans-serif'] = ['Simsun']
matplotlib.rcParams['axes.unicode_minus'] = False
sex = df['Survived'].groupby(df['Sex']).sum()
sex.plot.bar(facecolor='#FFCCCC')
plt.title('男女中生存人数分布情况')
plt.show()
任务三:可视化展示泰坦尼克号数据集中男女中生存人与死亡人数的比例图(用柱状图试试)。
SurviveSex=df['Survived'].groupby([df['Sex'],df['Survived']]).count().unstack()
SurviveSex.plot.bar(stacked='True')
plt.title('男女中生存人与死亡人数的比例图')
plt.show()
任务四:可视化展示泰坦尼克号数据集中不同票价的人生存和死亡人数分布情况。(用折线图试试)(横轴是不同票价,纵轴是存活人数)
【提示】对于这种统计性质的且用折线表示的数据,你可以考虑将数据排序或者不排序来分别表示。看看你能发现什么?
#不排序
SurviveFare=df['Survived'].groupby([df['Fare'],df['Survived']]).count()
SurviveFare.plot()
plt.legend()
plt.xlabel("票价区间")
plt.show()
#排序
SurviveFare=df['Survived'].groupby([df['Fare'],df['Survived']]).count().sort_values(ascending=False)
SurviveFare.plot()
plt.legend()
plt.xlabel("票价区间")
plt.show()
任务五:可视化展示泰坦尼克号数据集中不同仓位等级的人生存和死亡人员的分布情况。(用柱状图试试)
SurvivePclass=df['Survived'].groupby([df['Pclass'],df['Survived']]).count().unstack()
SurvivePclass.plot.bar(stacked='True')
plt.title('不同舱位等级的人生存与死亡人数比例图')
plt.show()
任务六:可视化展示泰坦尼克号数据集中不同年龄的人生存与死亡人数分布情况。(不限表达方式)
#折线图
df.Age[df['Survived']==0].plot(kind='kde')
df.Age[df['Survived']==1].plot(kind='kde')
plt.title('不同年龄的人生存与死亡人数分布情况')
plt.xlabel('Age')
plt.legend((0,1))
plt.show()
#结构化多绘图网格
g = sns.FacetGrid(df, hue="Survived",aspect=4)
g.map(sns.distplot, "Age", hist=False)
g.add_legend()
plt.title('不同年龄的人生存与死亡人数分布情况')
plt.xlabel('Age')
plt.show()
任务七:可视化展示泰坦尼克号数据集中不同仓位等级的人年龄分布情况。(用折线图试试)
df.Age[df['Pclass']==1].plot(kind='kde')
df.Age[df['Pclass']==2].plot(kind='kde')
df.Age[df['Pclass']==3].plot(kind='kde')
plt.title('不同仓位等级的人年龄分布情况')
plt.legend((1,2,3))