小福利,数据可视化之常见图形的绘制

大家好,我是天空之城,今天带来小福利,数据可视化之常见图形的绘制


# 读取'本(专)科'群体的数据
college_student_data = pd.read_csv('./工作/college_student_data.csv', encoding = 'utf-8')

# 查看college_student_data中'年龄'的最小值
college_student_data['年龄'].min()
# 查看college_student_data中'年龄'的最大值
college_student_data['年龄'].max()
# 查看college_student_data中'年龄'的平均值
college_student_data['年龄'].mean()
# 查看college_student_data中'年龄'的中位数
college_student_data['年龄'].median()

# 计算总体数据'行业'一列频率分布,并将结果赋值到profession变量
my_data=pd.read_csv('./数据分析/123.csv',encoding='utf-8')
profession = my_data['行业'].value_counts()/my_data['行业'].value_counts().sum()
# 查看profession
profession

学生           0.398739
IT/通讯/互联网    0.251851
银行/证券/保险业    0.200320
其他           0.098759
教育行业         0.031119
新闻/出版行业      0.019212
Name: 行业, dtype: float64

饼图
profession.plot(kind = 'pie', autopct = '%.2f%%',
                figsize = (7, 7), title = '行业频率分布图',
                label = '')

不过要注意的是,pandas库的plot()方法是基于matplotlib库开发的。


设置图像中文字体
from matplotlib import pyplot as plt
plt.rcParams['font.family'] = ['Source Han Sans CN']
 'Source Han Sans CN' 这个参数,这个参数代表的是系统自带的中文字体。
 
autopct:参数autopct的作用就是设置饼图中数据的显示格式。
我们把autopct参数设置为autopct='%.2f%%'就可以保留小数点后两位。这里是一个固定用法,需要你牢记。
接下来只要将autopct = '%.2f%%'参数添加至plot()方法就可以了。

figsize:参数figsize的作用就是调整可视化图表的大小,指定plot()方法生成图表的宽和高,单位为英寸。

我们可以将宽度、高度以元组的形式赋值给figsize参数,括号内第一个值为图表的宽度,第二个值为图表的高度。

title:参数title的作用就是设置图表的标题名,只需要将标题名称以字符串的形式赋值给title参数就可以为图表设置标题!

在这里,我们可以将title = '行业频率分布图'填入plot()方法。

但仔细一看,这张图上还是有一个很碍眼的列标签:行业。这一标签出现在可视化图表中并没有什么意义。
如果不想要在图像上出现标签名,可以直接传入一个空的字符串label = ''将列标签隐藏掉。








在这里插入图片描述

条形图

# 提取my_data中的'岗位'数据
position = my_data['岗位'].value_counts()/my_data['岗位'].value_counts().sum()
# 绘制'岗位'一列的频率分布饼图
position.plot(kind = 'bar', figsize = (13, 6), title = '岗位频率分布图')



在这里插入图片描述

直方图
直方图,是可以用来描绘数值型数据频数分布或频率分布的图表。下面就是年龄一列的频数分布图。

直方图和条形图之间,最明显的区别就是,直方图的 “柱” 之间,是没有空隙的,而条形图的 “柱” 之间会有空隙。

直方图的 “柱” 之间之所以没有空隙,因为数值型数据是连续的,没有空隙恰好能体现出其连续性。

从年龄这列的频数分布直方图中我们可以很直观地看到,本(专)科学生年龄集中在18岁到19岁之间。


# 读取'本(专)科'学生中'年龄'这一列的数据
age = college_student['年龄']
# 绘制'年龄'这列的频率分布直方图
age.plot(kind = 'hist', bins = [17, 18, 19, 20, 21, 22, 23], figsize = (4, 5),
         title = '本(专)科学生年龄分布直方图', grid = True)



在这里插入图片描述

像我们这里的年龄数据可以被分成6组,分别是:[17, 18)、[18, 19)、[19, 20)、[20, 21)、[21, 22) 以及 [22, 23)。

这六个区间分别对应了六个年龄,分别是:17岁、18岁、19岁、20岁、21岁 以及 22岁。
这样,我们只需要将这6个区间的分隔点传给参数bins就可以了。

在这个例子中,就是bins = [17, 18, 19, 20, 21, 22, 23]。


数据分析报告样例
分析背景与目的
我们需要在数据分析报告的开始交代清楚这次数据分析的背景、目的。

不要觉得这一步很麻烦,你要记住你的数据分析报告是面向所有人的,因此你必须将背景与目的阐述清楚,让所有人都能快速了解你的数据分析项目。

分析思路
接下来,我们需要在介绍完分析背景与目的后,说明分析思路。
然后就到了报告的主体部分,在这里我们需要将数据来源、预处理过程、分析过程以及分析结果说明清楚。

数据来源
数据来源这部分,我们需要解释清楚数据的来源并简单展示一下数据。这里我们可以配上前五行数据的截图。

数据分析
数据分析这部分,我们需要展示分析结果并且配上今天得到的可视化图表,让分析结果更直观地呈现出来。

结论
主体部分完成后,我们需要对数据分析的结果进行一个总结。这里我们可以直接复用之前得到的结论:

附录
最后,我们可以在附录部分附上我们的源数据以及分析代码,为你的数据分析项目提供补充说明。

在这里插入图片描述

  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值