外部数据源

最新推荐文章于 2022-11-09 13:37:17 发布

云梦泽之曦

最新推荐文章于 2022-11-09 13:37:17 发布

阅读量973

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_32720539/article/details/80390397

版权

产生背景

概述

目标

操作parquet文件数据

操作hive数据

操作mysql数据

统一

产生背景

每一个spark都是以加载数据开始，经过一系列处理，最后存储到其他地方；

不同格式，不同压缩格式，不同存储接口，用户肯定希望从不同数据源收集数据

方便、快速从不同数据源（）经过混合处理（json直接和parqent jion）再将结果以特定格式写回到指定系统上去

sparksql 1.2====》外部数据源api

问题：

1.加载、保存数据并不简单，比如从关系数据库sqoop加载到hdfs然后..

2.解析原生数据（text/json/parquet）

3.转换数据格式

数据集存储在不同的存储系统、格式上面

api概述：

一种扩展方式，将外部数据源整合到sparl sql中

读写各种格式（指定格式和路径local,分布式）

目标：

开发人员：是否需要把代码合并到spark源码中？比如访问微博（按照dataframe api实现）

对于使用人员：非常容易加载保存

支持：build-in json parquet jdbc 其他数据源：packages:外部的，非spark内置的，一个网站

操作 parqeut文件数据

云梦泽之曦

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
外部数据源

产生背景概述目标操作parquet文件数据操作hive数据操作mysql数据统一产生背景每一个spark都是以加载数据开始，经过一系列处理，最后存储到其他地方；不同格式，不同压缩格式，不同存储接口，用户肯定希望从不同数据源收集数据方便、快速从不同数据源（）经过混合处理（json直接和parqent jion）再将结果以特定格式写回到指定系统上去sparksql 1.2====》外部数据源api问题...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。