Spark SQL External DataSource外部数据源

最新推荐文章于 2021-09-14 18:01:06 发布

墨卿风竹

最新推荐文章于 2021-09-14 18:01:06 发布

阅读量181

点赞数

文章标签： Spark SQL External DataSource外部数据源

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_43688472/article/details/85488571

版权

一：介绍

官网：https://spark.apache.org/docs/latest/sql-data-sources-load-save-functions.html
随着Spark1.2的发布，Spark SQL开始正式支持外部数据源。Spark SQL开放了一系列接入外部数据源的接口，来让开发者可以实现。
这使得Spark SQL支持了更多的类型数据源，如json, parquet, avro, csv格式。只要我们愿意，我们可以开发出任意的外部数据源来连接到Spark SQL。之前大家说的支持HBASE，Cassandra都可以用外部数据源的方式来实现无缝集成。

二：产生背景

1.数据以各种格式存储在系统中

2加载和保存数据不容易（Hive和mysql之间）

3.数据存在各种类型，不好解析

4.转换数据格式

5.格式转换

6.用户希望方便快速从不同数据源（json，parquet，rdbms），经过混合处理（json join parquet），再将处理结果以特定格式输出。

三：实现

一种将各种外部数据源集成到Spark Sql中的扩展方法
可以使用各种格式和stroage系统读写数据格式
数据源API可以自动删除列和过滤器推到来源:Parquet/JDBC

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。