前两篇中咱们分别介绍了使用Excel、Python和Hive SQL计算统计值,这次咱们使用Spark SQL来计算统计值。
数据分析EPHS(4)-使用Excel和Python计算数列统计值
先来回顾一下数据和对应的统计结果:
本文使用的是iris分类数据集,数据下载地址为:
http://archive.ics.uci.edu/ml/datasets/Iris
下载后转换为xlsx格式的文件,数据如下:
对应的统计结果如下:
在介绍之前,我还是想先说明一点,这一篇只是想先带大家体验一把Spark SQL,相关更多关于原理相关的知识,咱们会在后面的文章中详细介绍。
1、数据导入
这里咱们通过读取Excel的方式读取出相应的数据,并得到一个DataFrame:
def createDFByCSV(spark:SparkSession) = { val df = spark.sqlContext.read.format("com.databricks.spark.csv") .option("header","true") //这里如果在csv第一行有属性的话,没有就是"false" .option("inferSchema",true.toString)//这是自动推断属性列的数据类型。 .load("resources/iris.csv") df.show() }
结果如下: