数据分析EPHS(6)-使用Spark计算数列统计值

最新推荐文章于 2022-03-23 22:54:41 发布

悄悄的努力

最新推荐文章于 2022-03-23 22:54:41 发布

阅读量654

点赞数

本文链接：https://blog.csdn.net/weixin_38753230/article/details/97342720

版权

本文介绍了如何使用Spark SQL进行数据统计，包括最大值、最小值、平均值、样本和总体标准差、中位数及四分位数的计算。通过iris数据集，详细展示了Spark SQL的用法，同时也分享了在计算中位数和四分位数时遇到的问题及解决方法。

摘要由CSDN通过智能技术生成

前两篇中咱们分别介绍了使用Excel、Python和Hive SQL计算统计值，这次咱们使用Spark SQL来计算统计值。

数据分析EPHS(4)-使用Excel和Python计算数列统计值

数据分析EPHS(5)-使用Hive SQL计算数列统计值

先来回顾一下数据和对应的统计结果：

本文使用的是iris分类数据集，数据下载地址为：

http://archive.ics.uci.edu/ml/datasets/Iris

下载后转换为xlsx格式的文件，数据如下：

640?wx_fmt=png

对应的统计结果如下：

640?wx_fmt=png

在介绍之前，我还是想先说明一点，这一篇只是想先带大家体验一把Spark SQL，相关更多关于原理相关的知识，咱们会在后面的文章中详细介绍。

1、数据导入

这里咱们通过读取Excel的方式读取出相应的数据，并得到一个DataFrame：

def createDFByCSV(spark:SparkSession) = {    val df = spark.sqlContext.read.format("com.databricks.spark.csv")      .option("header","true") //这里如果在csv第一行有属性的话，没有就是"false"      .option("inferSchema",true.toString)//这是自动推断属性列的数据类型。      .load("resources/iris.csv")    df.show()  }

结果如下：

640?wx_fmt=png