在第一第二课已经讲了notebook的基础使用,python的基础语法及常用的数据结构及其运算,包括:
整型: int
浮点型: float
布尔型: bool
字符串: str
元组: tuple
列表: list
集合: set
字典: dict
其中,前五种类型是不可变类型,后三种是可变类型,而不可变类型才能作为集合的元素或者字典的键。(实际上,基础类型还有一个None类型,该类型只有一个值None)
在第三第四课也还讲了:
格式化输出
错误信息
条件语句
循环语句
推导式
函数
类
包
有了这些,基本上可以使用python实现基础的数据分析了。本次课从解决问题入手,假设我们有一个班级的学生的期末考试的成绩的Excel表格,我们现在要实现一些简单的数据分析,主要解决以下问题:
统计班级人数
统计各科平均分
统计总分的平均分
按总分进行排序,并导出数据
统计班级男生女生的人数
统计不同性别的总分的平均分
统计不同性别下,各科的及格人数和不及格人数
学生成绩的分布情况
作为这个系列的最后一篇,今天要要用Python来完成这些基础的数据分析。
说明:下面都是基于notebook进行。
0. 学生成绩数据说明
Excel表格包含4个字段:姓名,性别,语文成绩,数学成绩等,如下:
这就是一个普通的Excel表格。
1. 简单统计
在统计之前,需要先将Excel表格的内容读入内存:
import pandas as pddata = pd.read_excel('学生成绩表.xlsx')# 查看前几行# 该函数通常是用来查看数据的data.head()
我们使用pandas这个包来进行数据分析之前,需要先将Excel表格读入内存中,head方法可以显示前几行(默认是5行):