Spark之DataFrame 练习

    DataFrame 是一种跨语言的、通用的数据科学抽象。 DataFrame 通过使用现实世界中的数据集,涵盖了许多最基本的概念和操作。毫不夸张地说,你可以仅用极少的资金甚至是以免费的方式,通过数据市场获取到一些科研界里最新最权威的数据。倘若你学过R语言,那你可能对它非常熟悉。

1、数据集

2008 年的航班数据:

http://stat-computing.org/dataexpo/2009/2008.csv.bz2

解压完毕后得到的是一个名为 2008.csv 的数据集

2、在 Spark 中使用 DataFrame

//加载包

spark-shell --packages com.databricks:spark-csv_2.11:1

//读入数据

val df = sqlContext.read.format("com.databricks.spark.csv").option("header", "true").load("/home/2008.csv")

//显示数据集中的前 5 个数据

df.take(5)

//检查数据格式

df.printSchema()

//转换列数据的类型

df.col("Year").cast("int")

val df_1 = df.withColumnRenamed("Year","oldYear")

val df_2 = df_1.withColumn("Year",df_1.col("oldYear").cast("int")).drop("oldYear")

//用一个函数来转换列的格式类型(这里的类型转换参数就可以由我们自己随意决定了)

def convertColumn(df: org.apache.spark.sql.DataFrame, name:String, newType:String) = {

  val df_1 = df.withColumnRenamed(name, "swap")

  df_1.withColumn(name, df_1.col("swap").cast(newType)).drop("swap")

}

val df_3 = convertColumn(df_2, "ArrDelay", "int")

val df_4 = convertColumn(df_2, "DepDelay", "int")

//对 DataFrame 进行计数操作,计算数据集中每个航班的平均延迟时间

val averageDelays = df_4.groupBy(df_4.col("FlightNum")).agg(avg(df_4.col("ArrDelay")), avg(df_4.col("DepDelay")))

//Spark 的“懒加载”,缓存我们刚刚得到的数据

averageDelays.cache()

//查看刚刚的计算结果

averageDelays.show()

//按照升序排列平均延迟时间

averageDelays.orderBy("AVG(ArrDelay)").show()

//按照降序排列

averageDelays.sort($"AVG(ArrDelay)".desc).show()

//排列多个列的数据并显示结果

averageDelays.sort($"AVG(ArrDelay)".desc, $"AVG(DepDelay)".desc).show()


//如果是 JSON 格式的数据,则可以通过

//val df = sqlCoontext.read.json(filePath)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

tigerking1017

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值