DataFrame 是一种跨语言的、通用的数据科学抽象。 DataFrame 通过使用现实世界中的数据集,涵盖了许多最基本的概念和操作。毫不夸张地说,你可以仅用极少的资金甚至是以免费的方式,通过数据市场获取到一些科研界里最新最权威的数据。倘若你学过R语言,那你可能对它非常熟悉。
1、数据集
2008 年的航班数据:
http://stat-computing.org/dataexpo/2009/2008.csv.bz2
解压完毕后得到的是一个名为 2008.csv
的数据集
2、在 Spark 中使用 DataFrame
//加载包
spark-shell --packages com.databricks:spark-csv_2.11:1
//读入数据
val df = sqlContext.read.format("com.databricks.spark.csv").option("header", "true").load("/home/2008.csv")
//显示数据集中的前 5 个数据
df.take(5)
//检查数据格式
df.printSchema()
//转换列数据的类型
df.col("Year").cast("int")
val df_1 = df.withColumnRenamed("Year","oldYear")
val df_2 = df_1.withColumn("Year",df_1.col("oldYear").cast("int")).drop("oldYear")
//用一个函数来转换列的格式类型(这里的类型转换参数就可以由我们自己随意决定了)
def convertColumn(df: org.apache.spark.sql.DataFrame, name:String, newType:String) = {
val df_1 = df.withColumnRenamed(name, "swap")
df_1.withColumn(name, df_1.col("swap").cast(newType)).drop("swap")
}
val df_3 = convertColumn(df_2, "ArrDelay", "int")
val df_4 = convertColumn(df_2, "DepDelay", "int")
//对 DataFrame 进行计数操作,计算数据集中每个航班的平均延迟时间
val averageDelays = df_4.groupBy(df_4.col("FlightNum")).agg(avg(df_4.col("ArrDelay")), avg(df_4.col("DepDelay")))
//Spark 的“懒加载”,缓存我们刚刚得到的数据
averageDelays.cache()
//查看刚刚的计算结果
averageDelays.show()
//按照升序排列平均延迟时间
averageDelays.orderBy("AVG(ArrDelay)").show()
//按照降序排列
averageDelays.sort($"AVG(ArrDelay)".desc).show()
//排列多个列的数据并显示结果
averageDelays.sort($"AVG(ArrDelay)".desc, $"AVG(DepDelay)".desc).show()
//如果是 JSON 格式的数据,则可以通过
//val df = sqlCoontext.read.json(filePath)