前面环境都搞的差不多了,这次咱们进入实战篇,来计算一列的统计值。统计值主要有最大值、最小值、均值、标准差、中位数、四分位数。话不多说,直接进入正题。
本文介绍使用Excel和Python来计算上述统计值,而Hive和Spark将放在下一篇中。
1、数据介绍
这里咱们使用的是iris分类数据集,数据下载地址为:
http://archive.ics.uci.edu/ml/datasets/Iris
下载后转换为xlsx格式的文件,数据如下:
也可以在公众号后台回复 “iris” 下载相应数据。
2、使用Excel计算统计值
咱们一个个来哈,在使用过程中还是学到了很多东西的,如果你都会了,也建议你看一下,嘻嘻!
2.1 最大值 & 最小值
在Excel统计一列或者指定单元格区间的最大值或最小值,直接使用max和min函数即可:
=MAX(A2:A151)=MIN(A2:A151)
统计结果如下:
2.2 平均值
在Excel统计一列或者指定单元格区间的平均值,直接使用average函数即可:
=AVERAGE(A2:A151)
统计结果如下: