Pandas数据的简单计算是通过对表中数据各字段进行加、减、乘、除的四则运算,得出新的结果,以便对数据有更好的分析与决策。
这是本文要分析的表数据。是学生表。
学号 | 班级 | 姓名 | 性别 | 政治 | 数据库 技术 | 高数 | C语言 程序设计 | 网页 设计 | 数据分析 与挖掘 |
182024241 | 1820242 | 成晨 | 男 | 86 | 75 | 78 | 60 | 62 | 45 |
182024244 | 1820242 | 周玲 | 女 | 76 | 80 | 91 | 44 | 87 | 72 |
182024251 | 1820242 | 张伟波 | 男 | 95 | 92 | 81 | 60 | 66 | 61 |
182024249 | 1820242 | 朱吉 | 男 | 75 | 89 | 50 | 71 | 73 | 71 |
182024219 | 1820242 | 邱玲 | 女 | 63 | 84 | 88 | 46 | 67 | 61 |
182024201 | 1820242 | 陈培 | 男 | 71 | 86 | 50 | 71 | 82 | 69 |
182024347 | 1820243 | 李洁华 | 女 | 76 | 85 | 61 | 78 | 85 | 65 |
182024307 | 1820243 | 陈珍 | 男 |
| 90 | 79 | 69 | 66 | 60 |
182024326 | 1820243 | 余龙 | 男 | 56 | 84 | 67 |
| 71 | 60 |
182024320 | 1820243 | 李佳 | 女 | 72 | 84 | 67 | 77 | 83 | 64 |
182024342 | 1820243 | 李小龙 | 男 | 80 | 56 | 90 | 60 | 87 | 61 |
182024310 | 1820243 | 郭芙 | 女 | 89 | 88 | 67 | 79 | 76 | 68 |
182024435 | 1820244 | 姜涛 | 男 | 83 |
| 71 | 76 | 92 | 61 |
182024432 | 1820244 | 赵龙宇 | 男 | 90 | 81 | 74 | 71 | 93 | 63 |
182024446 | 1820244 | 周洁 | 女 | 82 | 77 | 80 | 80 | 84 | 78 |
182024421 | 1820244 | 王建祥 | 男 | 66 | 91 | 72 | 75 | 94 | 69 |
182024433 | 1820244 | 李强 | 男 | 75 | 93 | 76 | 70 | 77 | 70 |
182024428 | 1820244 | 林宇通 | 男 | 63 | 85 | 96 | 77 | 66 | 72 |
182024402 | 1820244 | 周慧 | 女 | 82 | 82 | 74 | 75 | 65 | 86 |
182024422 | 1820244 | 郭晓亮 | 男 | 86 | 65 | 60 | 83 | 80 | 53 |
182024342 | 1820243 | 李小龙 | 男 | 80 | 56 | 90 | 60 | 87 | 61 |
182024307 | 1820243 | 陈珍 | 男 |
| 90 | 79 | 69 | 66 | 60 |
数据的处理过程:
1、导入数据,查看数据量(有几行几列):结果为22行10列。
2、查看是否有重复有记录,有则删除:表名.duplicated(),查看是否有重复记录
(1):结果显示有两条记录重复输入了。
(2)、有重复,则删除重复记录,并查看记录:原有22条记录,删除重复记录后有20条记录。
3、查看记录中数据是否存在空值,如果存在,用0填入:isnull(),判断是否为空值。
(1)、判断哪些字段存在空值
(2)、在空值数据中以0填充,并查看。
4、去除数据中的空格,并把数据转为float型数据
(1)、去除数据中的空格。
(2)、因去除空格后,数据变为字符型,所以要把数据变为float型。
5、计算每个同学的总分,并显示前5条记录
6、统计量 describle:对数据做一些基本描述,默认为计算计算数据的基本统计量。
7、频数与频率
(1)、频数
计算学生表中男、女同学的人数。
(2)、频率
计算男、女所占比率
8、在student2中增加一列:平均分,并由总分算出平均分,并显示前5条记录。
9、对成绩进行分类:平均分大于等于80分的为“优秀”,在[70,80)之间为“良好”,70分以下为“一般”
10、求某一学科的平均值