Spark处理外部数据源

最新推荐文章于 2021-05-24 20:53:23 发布

慧有未来

最新推荐文章于 2021-05-24 20:53:23 发布

阅读量395

点赞数

分类专栏：大数据文章标签： spark 外部数据源

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_35283816/article/details/80338237

版权

大数据专栏收录该内容

26 篇文章 0 订阅

订阅专栏

产生背景：

1.数据以各种格式存储在系统中

2加载和保存数据不容易（Hive和mysql之间）

3.数据存在各种类型，不好解析

4.转换数据格式

5.格式转换

6.用户希望方便快速从不同数据源（json，parquet，rdbms），经过混合处理（json join parquet），再将处理结果以特定格式输出。

出现时间：

Spark Sql1.2出现了外部数据源API

概述：

An extension way to integrate a various of external data sources into Spark Sql

Can read and write DataFrames using a variety of formats and stroage systems

Data Sources API can automatically prune columns and push filters to the source：Parquet/JDBC

目标：

Developer：build libraries for various data sources

Users:easy loading/saving DataFrames

读：spark.read.format("")

内置数据源：json，parquet，jdbc，csv（2.x以后有）

外部数据源：https://spark-packages.org/

SparkSql默认处理的format就是parquent

写：people.write.format().save("");

操作Hive表数据：

spark.table(tablename)

df.write.saveAsTable(tableName)

操作Mysql表数据：

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark处理外部数据源

产生背景：1.数据以各种格式存储在系统中2加载和保存数据不容易（Hive和mysql之间）3.数据存在各种类型，不好解析4.转换数据格式5.格式转换6.用户希望方便快速从不同数据源（json，parquet，rdbms），经过混合处理（json join parquet），再将处理结果以特定格式输出。出现时间：Spark Sql1.2出现了外部数据源API...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。