Spark-SQL学习笔记_总结和拓展

最新推荐文章于 2023-05-22 09:15:54 发布

龙回江湖

最新推荐文章于 2023-05-22 09:15:54 发布

阅读量266

点赞数 1

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_40845957/article/details/84954959

版权

本文详细介绍了Spark-SQL的应用场景，包括数据文件查询、流数据处理、ETL开发等，并探讨了如何与外部数据源交互。内容涵盖数据加载、DataFrame与RDD转换、SQL查询及json处理。同时，讲解了DataFrame与SQL的关系、schema处理和数据保存策略，以及Spark-SQL对SQL标准的支持情况。

摘要由CSDN通过智能技术生成

一、Spark-SQL应用场景

1.数据文件即席查询 Ad-hoc

普通查询:定制化查询

2.对流数据文件采用SQL分析 Spark-Streaming+Spark-SQL

3.使用SQL完成ETL开发

1> 格式转换 ==>列式存储 parquet/json==>parquet

2> 日志数据清洗,把日志一部分内容抽取出来做分析统计

2.1> 添加字段 ip=>城市

2.2> 日期字段转换成分区字段

2.3> 剔除不需要字段

4.与外部数据源做交互查询操作外部数据源API！！！

传统:通过sqoop把数据抽取到数据平台上去

然后注册成Hive表，进行统计分析

进阶:Spark-SQL

把外部数据源中的表注册成DataFrame

通过DataFrame API进行统计分析

5.集群查询性能拓展

spark on yarn 开发

spark local模式测试

二、加载数据

1.直接加载到dataframe/dataset

2.加载到RDD进行转换

3.从本地或云端(HDFS/S3)加载数据

1>将数据加载成RDD

val masterLog = sc.textFile("file://")

val workerLog = sc.textFile("file://")

val allLog=sc

最低0.47元/天解锁文章

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。