第二章:数据可视化
开始之前,导入numpy、pandas以及matplotlib包和数据
#导入numpy、pandas以及matplotlib包
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
# 导入数据(result.csv这个文件)
df = pd.read_csv(r'result.csv')
df.head()
2.7 如何让人一眼看懂你的数据?
2.7.1 任务一:跟着书本第九章,了解matplotlib,自己创建一个数据项,对其进行基本可视化
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
data = pd.Series(np.random.randn(1000),index=np.arange(1000)) # 生成随机数据
data =data.cumsum() # 进行数据的累加
data.plot() # 绘图
plt.show() # 展示
【思考】最基本的可视化图案有哪些?分别适用于那些场景?(比如折线图适合可视化某个属性值随时间变化的走势)
【思考回答】
散点图:用于发现各变量之间的关系。
柱状图:展示多个分类的数据变化和同类别各变量之间的比较情况。
条形图:展示多个分类的数据变化和同类别各变量之间的比较情况。
折线图:展示数据随时间或有序类别的波动情况的趋势变化。
饼图:用来展示各类别占比,比如男女比例。
热力图:以特殊高亮的形式显示访客热衷的页面区域和访客所在的地理区域的图示。
箱型图:用来展示一组数据分散情况,特别用于对几个样本的比较。
词云图: 展现文本信息,对出现频率较高的“关键词”予以视觉上的突出,比如用户画像的标签。
雷达图:将多个分类的数据量映射到坐标轴上,对比某项目不同属性的特点。
漏斗图:用梯形面积表示某个环节业务量与上一个环节之间的差异,可以直观地显示转化率和流失率。
2.7.2 任务二:可视化展示泰坦尼克号数据集中男女中生存人数分布情况(用柱状图试试)。
# 可视化展示泰坦尼克号数据集中男女中生存人数分布情况(用柱状图试试)
# 分组用 groupby 计算用 sum
sex = df.groupby('Sex')['Survived'].sum()
sex
sex.plot.bar() # 柱状图