数据分析EPHS(6)-使用Spark计算数列统计值

本文介绍了如何使用Spark SQL进行数据统计,包括最大值、最小值、平均值、样本和总体标准差、中位数及四分位数的计算。通过iris数据集,详细展示了Spark SQL的用法,同时也分享了在计算中位数和四分位数时遇到的问题及解决方法。
摘要由CSDN通过智能技术生成

前两篇中咱们分别介绍了使用Excel、Python和Hive SQL计算统计值,这次咱们使用Spark SQL来计算统计值。

数据分析EPHS(4)-使用Excel和Python计算数列统计值

数据分析EPHS(5)-使用Hive SQL计算数列统计值

先来回顾一下数据和对应的统计结果:

本文使用的是iris分类数据集,数据下载地址为:

http://archive.ics.uci.edu/ml/datasets/Iris

下载后转换为xlsx格式的文件,数据如下:

640?wx_fmt=png

对应的统计结果如下:

640?wx_fmt=png

在介绍之前,我还是想先说明一点,这一篇只是想先带大家体验一把Spark SQL,相关更多关于原理相关的知识,咱们会在后面的文章中详细介绍。

1、数据导入

这里咱们通过读取Excel的方式读取出相应的数据,并得到一个DataFrame:

def createDFByCSV(spark:SparkSession) = {    val df = spark.sqlContext.read.format("com.databricks.spark.csv")      .option("header","true") //这里如果在csv第一行有属性的话,没有就是"false"      .option("inferSchema",true.toString)//这是自动推断属性列的数据类型。      .load("resources/iris.csv")    df.show()  }

结果如下:

640?wx_fmt=png


2、使用Spark SQL计算统计值

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值