Spark之DataFrame 练习

最新推荐文章于 2024-01-01 21:10:52 发布

tigerking1017

最新推荐文章于 2024-01-01 21:10:52 发布

阅读量675

点赞数 1

分类专栏： Spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/tigerking1017/article/details/76424559

版权

Spark 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

DataFrame 是一种跨语言的、通用的数据科学抽象。 DataFrame 通过使用现实世界中的数据集，涵盖了许多最基本的概念和操作。毫不夸张地说，你可以仅用极少的资金甚至是以免费的方式，通过数据市场获取到一些科研界里最新最权威的数据。倘若你学过R语言，那你可能对它非常熟悉。

1、数据集

2008 年的航班数据：

http://stat-computing.org/dataexpo/2009/2008.csv.bz2

解压完毕后得到的是一个名为 2008.csv 的数据集

2、在 Spark 中使用 DataFrame

//加载包

spark-shell --packages com.databricks:spark-csv_2.11:1

//读入数据

val df = sqlContext.read.format("com.databricks.spark.csv").option("header", "true").load("/home/2008.csv")

//显示数据集中的前 5 个数据

df.take(5)

//检查数据格式

df.printSchema()

//转换列数据的类型

df.col("Year").cast("int")

val df_1 = df.withColumnRenamed("Year","oldYear")

val df_2 = df_1.withColumn("Year",df_1.col("oldYear").cast("int")).drop("oldYear")

//用一个函数来转换列的格式类型（这里的类型转换参数就可以由我们自己随意决定了）

def convertColumn(df: org.apache.spark.sql.DataFrame, name:String, newType:String) = {

val df_1 = df.withColumnRenamed(name, "swap")

df_1.withColumn(name, df_1.col("swap").cast(newType)).drop("swap")

}

val df_3 = convertColumn(df_2, "ArrDelay", "int")

val df_4 = convertColumn(df_2, "DepDelay", "int")

//对 DataFrame 进行计数操作，计算数据集中每个航班的平均延迟时间

val averageDelays = df_4.groupBy(df_4.col("FlightNum")).agg(avg(df_4.col("ArrDelay")), avg(df_4.col("DepDelay")))

//Spark 的“懒加载”，缓存我们刚刚得到的数据

averageDelays.cache()

//查看刚刚的计算结果

averageDelays.show()

//按照升序排列平均延迟时间

averageDelays.orderBy("AVG(ArrDelay)").show()

//按照降序排列

averageDelays.sort($"AVG(ArrDelay)".desc).show()

//排列多个列的数据并显示结果

averageDelays.sort($"AVG(ArrDelay)".desc, $"AVG(DepDelay)".desc).show()

//如果是 JSON 格式的数据，则可以通过

//val df = sqlCoontext.read.json(filePath)

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

tigerking1017 CSDN认证博客专家 CSDN认证企业博客

码龄8年

31: 原创

24万+: 周排名

44万+: 总排名

21万+: 访问

: 等级

1499: 积分

92: 粉丝

132: 获赞

12: 评论

471: 收藏

私信

关注

热门文章

分类专栏

数据治理
数据仓库 2篇
数理统计 1篇
python 19篇
MySQL 5篇
MATLAB 4篇
R 4篇
web 3篇
Spark 1篇
MongoDB 2篇
前段
技术应用 1篇

最新评论

数据集市简介
CSDN-Ada助手: 非常感谢CSDN博主分享的关于数据集市的博客，这篇博客详细介绍了数据集市的概念和作用，让读者更好地理解数据集市的重要性。我觉得下一篇博客可以深入探讨数据集市的建设和运维，分享一些实践经验和技巧，对于正在进行数据集市建设的用户会非常有帮助。希望博主可以继续分享关于数据集市的技术文章，这样更多的读者可以受益于你的经验和知识。为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。
MATLAB参数估计normfit()函数和mle()函数
xinleiforever: 请问可以自定义函数，用mle函数实现对两维数据进行二维高斯的最大似然估计吗？
有趣的MATLAB小程序
北辰巷墨灕: 太秀了
有趣的MATLAB小程序
张无极2018: 可以看一下我的，互相学习互粉 https://blog.csdn.net/weixin_43419816/article/details/106063588
CSS基础之框架图
zl_666: 1 2表示什么意思啊？

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

tigerking1017 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。