第二章：第四节数据可视化-课程

最新推荐文章于 2022-07-18 22:12:04 发布

Wayback_

最新推荐文章于 2022-07-18 22:12:04 发布

阅读量400

点赞数

本文链接：https://blog.csdn.net/m0_47105444/article/details/118893047

版权

2 第二章：数据可视化

开始之前，导入numpy、pandas以及matplotlib包和数据

# 加载所需的库
# 如果出现 ModuleNotFoundError: No module named 'xxxx'
# 你只需要在终端/cmd下 pip install xxxx 即可
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

#加载result.csv这个数据
df = pd.read_csv('result.csv')
df.head()

	Unnamed: 0	PassengerId	Survived	Pclass	Name	Sex	Age	SibSp	Ticket	Fare	Cabin	Embarked
0	0	1	0	3	Braund, Mr. Owen Harris	male	22.0	1.0	A/5 21171	7.2500	NaN	S
1	1	2	1	1	Cumings, Mrs. John Bradley (Florence Briggs Th...	female	38.0	1.0	PC 17599	71.2833	C85	C
2	2	3	1	3	Heikkinen, Miss. Laina	female	26.0	0.0	STON/O2. 3101282	7.9250	NaN	S
3	3	4	1	1	Futrelle, Mrs. Jacques Heath (Lily May Peel)	female	35.0	1.0	113803	53.1000	C123	S
4	4	5	0	3	Allen, Mr. William Henry	male	35.0	0.0	373450	8.0500	NaN	S

2.7 如何让人一眼看懂你的数据？

《Python for Data Analysis》第九章

2.7.1 任务一：跟着书本第九章，了解matplotlib，自己创建一个数据项，对其进行基本可视化

【思考】最基本的可视化图案有哪些？分别适用于那些场景？（比如折线图适合可视化某个属性值随时间变化的走势）

#思考回答
#这一部分需要了解可视化图案的的逻辑，知道什么样的图案可以表达什么样的信号b
df.groupby('Sex')['Survived'].sum()

Sex
female    233
male      109
Name: Survived, dtype: int64

2.7.2 任务二：可视化展示泰坦尼克号数据集中男女中生存人数分布情况（用柱状图试试）。

#代码编写
df.groupby('Sex')['Survived'].sum().plot.bar()
plt.title('zhuzhuangtu')
plt.show()

在这里插入图片描述

【思考】计算出泰坦尼克号数据集中男女中死亡人数，并可视化展示？如何和男女生存人数可视化柱状图结合到一起？看到你的数据可视化，说说你的第一感受（比如：你一眼看出男生存活人数更多，那么性别可能会影响存活率）。

#思考题回答
通过参数stacked='True'来实现将存活与死亡的两个柱状图结合在一起

2.7.3 任务三：可视化展示泰坦尼克号数据集中男女中生存人与死亡人数的比例图（用柱状图试试）。

#代码编写
# 提示：计算男女中死亡人数 1表示生存，0表示死亡
df.groupby(['Sex','Survived'])['Survived'].count().unstack().plot.bar(stacked='True')  # stacked代表堆叠，否则0与1是分开的不是在一个柱子上

<AxesSubplot:xlabel='Sex'>

在这里插入图片描述

【提示】男女这两个数据轴，存活和死亡人数按比例用柱状图表示

2.7.4 任务四：可视化展示泰坦尼克号数据集中不同票价的人生存和死亡人数分布情况。（用折线图试试）（横轴是不同票价，纵轴是存活人数）

【提示】对于这种统计性质的且用折线表示的数据，你可以考虑将数据排序或者不排序来分别表示。看看你能发现什么？

#代码编写
# 计算不同票价中生存与死亡人数 1表示生存，0表示死亡
fare_sur = df.groupby(['Fare'])['Survived'].value_counts().sort_values(ascending=False)  # 用value_counts与上面groupby(['Fare','Survived'])等价
fare_sur

Fare     Survived
8.0500   0           38
7.8958   0           37
13.0000  0           26
7.7500   0           22
26.0000  0           16
                     ..
20.2500  1            1
         0            1
18.7875  1            1
         0            1
15.0500  0            1
Name: Survived, Length: 330, dtype: int64

# fig = plt.figure(figsize=(20, 18))
fare_sur.plot()
plt.legend()
plt.show()

在这里插入图片描述

2.7.5 任务五：可视化展示泰坦尼克号数据集中不同仓位等级的人生存和死亡人员的分布情况。（用柱状图试试）

df.head()

	Unnamed: 0	PassengerId	Survived	Pclass	Name	Sex	Age	SibSp	Ticket	Fare	Cabin	Embarked
0	0	1	0	3	Braund, Mr. Owen Harris	male	22.0	1.0	A/5 21171	7.2500	NaN	S
1	1	2	1	1	Cumings, Mrs. John Bradley (Florence Briggs Th...	female	38.0	1.0	PC 17599	71.2833	C85	C
2	2	3	1	3	Heikkinen, Miss. Laina	female	26.0	0.0	STON/O2. 3101282	7.9250	NaN	S
3	3	4	1	1	Futrelle, Mrs. Jacques Heath (Lily May Peel)	female	35.0	1.0	113803	53.1000	C123	S
4	4	5	0	3	Allen, Mr. William Henry	male	35.0	0.0	373450	8.0500	NaN	S

#代码编写
# 1表示生存，0表示死亡
df.groupby('Pclass')['Survived'].value_counts().unstack().plot(kind='bar',stacked='True')

<AxesSubplot:xlabel='Pclass'>

在这里插入图片描述

【思考】看到这个前面几个数据可视化，说说你的第一感受和你的总结

#通过对分组后执行value_counts可以统计分组后的每个组的survived的个数

df.groupby('Age')['Survived'].value_counts().sort_values(ascending=False)

Age    Survived
21.00  0           19
28.00  0           18
18.00  0           17
25.00  0           17
22.00  0           16
                   ..
23.50  0            1
20.50  0            1
15.00  0            1
14.50  0            1
0.42   1            1
Name: Survived, Length: 142, dtype: int64

2.7.6 任务六：可视化展示泰坦尼克号数据集中不同年龄的人生存与死亡人数分布情况。(不限表达方式)

#代码编写
df.groupby('Age')['Survived'].value_counts().sort_values(ascending=False).plot(kind='line',stacked='True')

<AxesSubplot:xlabel='Age,Survived'>

在这里插入图片描述

2.7.7 任务七：可视化展示泰坦尼克号数据集中不同仓位等级的人年龄分布情况。（用折线图试试）

#代码编写
df.groupby('Pclass')['Age'].value_counts().sort_values().unstack(level=0)

Pclass	1	2	3
Age
0.42	NaN	NaN	1.0
0.67	NaN	1.0	NaN
0.75	NaN	NaN	2.0
0.83	NaN	2.0	NaN
0.92	1.0	NaN	NaN
...	...	...	...
70.00	1.0	1.0	NaN
70.50	NaN	NaN	1.0
71.00	2.0	NaN	NaN
74.00	NaN	NaN	1.0
80.00	1.0	NaN	NaN

88 rows × 3 columns

df.Age[df.Pclass==1] # 216个 57个unique

1      38.0
3      35.0
6      54.0
11     58.0
23     28.0
       ... 
871    47.0
872    33.0
879    56.0
887    19.0
889    26.0
Name: Age, Length: 216, dtype: float64

df.Age[df.Pclass==1].plot(kind='line')
df.Age[df.Pclass==2].plot(kind='line')
df.Age[df.Pclass==3].plot(kind='line')
plt.xlabel("age")
plt.legend((1,2,3),loc="best")

在这里插入图片描述

df1 = df[df['Pclass'] == 1]['Age']
df2 = df[df['Pclass'] == 2]['Age']
df3 = df[df['Pclass'] == 3]['Age']
#df1.plot(kind='line')
df1

1      38.0
3      35.0
6      54.0
11     58.0
23     28.0
       ... 
871    47.0
872    33.0
879    56.0
887    19.0
889    26.0
Name: Age, Length: 216, dtype: float64

总结：数据可视化这部分感觉还没有入门，还需要进一步加强学习。只是了解了一些对于DataFrame与series的plot使用比如柱状图和折线图吧。