SPARK 2.2.1 SQL处理各种数据源的案例与解读

最新推荐文章于 2024-04-24 17:44:19 发布

段智华

最新推荐文章于 2024-04-24 17:44:19 发布

阅读量5.9k

点赞数 1

分类专栏： AI & Big Data案例实战课程文章标签： SPARK

热烈祝贺Gavin大咖2024年北京航空航天大学两本新书《Transformer&ChatGPT解密：原理、源码及案例》、《Transformer& Rasa 解密: 原理、源码及案例》出版发行

本文链接：https://blog.csdn.net/duan_zhihua/article/details/79333144

版权

AI & Big Data案例实战课程专栏收录该内容

167 篇文章 337 订阅 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

SPARK 2.2.1 SQL 处理各种数据源的案例与解读

由于集团下的各个子公司在数据集成之前，使用数据有多种格式，因此需要支持多种数据来源的处理，将各个子公司的不同数据源集成到集团统一的大数据平台下。Spark SQL支持从各种数据源加载文件构建DataFrame/DataSet，以及将DataFrame/DataSet 保存到各种数据源中。

在给出数据源实战案例之前，先对Spark SQL的数据源进行分析，下面是从源码角度，对内置的数据源、数据源的查找两个方面进行分析。

1) 数据源分析

查看源码，可以从任何一个加载数据源的接口触发，最后找到解析数据源的代码，这里数据源的源码在DataSource.scala文件中，相关代码如下所示。

DataSource.scala源代码：

1.         object DataSource extendsLogging {

2.          

3.           /** A map to maintain backward compatibilityin case we move data sources around. */

4.           private val backwardCompatibilityMap

了解本专栏

超级会员免费看

段智华

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
打赏
0
评论
SPARK 2.2.1 SQL处理各种数据源的案例与解读

SPARK 2.2.1 SQL 处理各种数据源的案例与解读由于集团下的各个子公司在数据集成之前，使用数据有多种格式，因此需要支持多种数据来源的处理，将各个子公司的不同数据源集成到集团统一的大数据平台下。Spark SQL支持从各种数据源加载文件构建DataFrame/DataSet，以及将DataFrame/DataSet 保存到各种数据源中。在给出数据源实战案例之前，先对Spark SQL的数...
复制链接

扫一扫