基于Python的数据分析与数据挖掘教程之四: 数据简单处理

Pandas数据的简单计算是通过对表中数据各字段进行加、减、乘、除的四则运算,得出新的结果,以便对数据有更好的分析与决策。

这是本文要分析的表数据。是学生表。

学号

班级

姓名

性别

政治

数据库

技术

高数

C语言

程序设计

网页

设计

数据分析

与挖掘

182024241

1820242

成晨

86

75

78

60

62

45

182024244

1820242

周玲

76

80

91

44

87

72

182024251

1820242

张伟波

95

92

81

60

66

61

182024249

1820242

朱吉

75

89

50

71

73

71

182024219

1820242

邱玲

63

84

88

46

67

61

182024201

1820242

陈培

71

86

50

71

82

69

182024347

1820243

李洁华

76

85

61

78

85

65

182024307

1820243

陈珍

 

90

79

69

66

60

182024326

1820243

余龙

56

84

67

 

71

60

182024320

1820243

李佳

72

84

67

77

83

64

182024342

1820243

李小龙

80

56

90

60

87

61

182024310

1820243

郭芙

89

88

67

79

76

68

182024435

1820244

姜涛

83

 

71

76

92

61

182024432

1820244

赵龙宇

90

81

74

71

93

63

182024446

1820244

周洁

82

77

80

80

84

78

182024421

1820244

王建祥

66

91

72

75

94

69

182024433

1820244

李强

75

93

76

70

77

70

182024428

1820244

林宇通

63

85

96

77

66

72

182024402

1820244

周慧

82

82

74

75

65

86

182024422

1820244

郭晓亮

86

65

60

83

80

53

182024342

1820243

李小龙

80

56

90

60

87

61

182024307

1820243

陈珍

 

90

79

69

66

60

数据的处理过程:

1、导入数据,查看数据量(有几行几列):结果为22行10列。

2、查看是否有重复有记录,有则删除:表名.duplicated(),查看是否有重复记录

(1):结果显示有两条记录重复输入了。

(2)、有重复,则删除重复记录,并查看记录:原有22条记录,删除重复记录后有20条记录。

3、查看记录中数据是否存在空值,如果存在,用0填入:isnull(),判断是否为空值。

(1)、判断哪些字段存在空值

(2)、在空值数据中以0填充,并查看。

4、去除数据中的空格,并把数据转为float型数据

(1)、去除数据中的空格。

(2)、因去除空格后,数据变为字符型,所以要把数据变为float型。

5、计算每个同学的总分,并显示前5条记录

6、统计量 describle:对数据做一些基本描述,默认为计算计算数据的基本统计量。

7、频数与频率

(1)、频数

计算学生表中男、女同学的人数。

(2)、频率

计算男、女所占比率

8、在student2中增加一列:平均分,并由总分算出平均分,并显示前5条记录。

9、对成绩进行分类:平均分大于等于80分的为“优秀”,在[70,80)之间为“良好”,70分以下为“一般”

10、求某一学科的平均值

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值