Spark SQL 程序开发需要注意的要点

最新推荐文章于 2022-12-10 16:44:11 发布

秉寒-CHO

最新推荐文章于 2022-12-10 16:44:11 发布

阅读量909

点赞数

分类专栏： Spark

本文链接：https://blog.csdn.net/haohaixingyun/article/details/52778121

版权

Spark 专栏收录该内容

54 篇文章 0 订阅

订阅专栏

    Spark SQL 程序开发过程中，我们有两种方式确定 schema，第一种是反射推断 schema，这种方式下，需要定义样本类 (case class) 来对应数据的列;第二种方式是通过编程方式来确定 schema，这种方式主要是通过 Spark SQL 提供的 StructType 和 StructField 等 API 来编程实现，这种方式下不需要定义样本类

    在程序实现中，我们需要使用以便隐式的把 RDD 转化成 DataFrame 来操作。

    通常来说，我们有两种方式了解 Spark 程序的执行流程。第一种是通过在控制台观察输出日志，另一种则更直观，就是通过 Spark Web Console 来观察 Driver 程序里各个部分产生的 job 信息以及 job 里包含的 stages 信息。
    需要指出的是，熟练的掌握 Spark SQL/DataFrame 的知识对学习最新的 Spark 机器学习库 ML Pipeline 至关重要，因为 ML Pipeline 使用 DataFrame 作为数据集来支持多种的数据类型。
    笔者在测试的过程中发现，处理相同的数据集和类似的操作，Spark SQL/DataFrame 比传统的 RDD 转换操作具有更好的性能。这是由于 SQL 模块的 Catalyst 对用户 SQL 做了很好的查询优化。

秉寒-CHO

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark SQL 程序开发需要注意的要点

Spark SQL 程序开发过程中，我们有两种方式确定 schema，第一种是反射推断 schema，这种方式下，需要定义样本类 (case class) 来对应数据的列;第二种方式是通过编程方式来确定 schema，这种方式主要是通过 Spark SQL 提供的 StructType 和 StructField 等 API 来编程实现，这种方式下不需要定义样本类在程序实现中，我们
复制链接

扫一扫

专栏目录