Spark
文章平均质量分 97
一切如来心秘密
目前从事大数据领域后台开发,完善数据平台相关产品生态,包括数据开发平台,数据质量,元数据系统,离线调度系统,标签系统,统一权限管理系统等产品的设计与研发工作。
学有涯而知无涯,在技术上保持谦卑,在生活中一路高歌,记录点滴,不忘初心,方得始终~
展开
-
Spark 应用程序优化和调优总结
本文总结了 Spark 中比较重要和常用的调优手段,包括设置并优化 Spark 程序的默认配置,来改进大型任务的工作负载和并行度,从而减少 Spark executor 内存不足的问题。以及如何使用适当的缓存和持久化策略来增加对常用数据集的访问速度。还有说明了在操作复杂聚合时常用的两种连接方式,以及如何设置合理的排序键来进行分桶,尽量减少 shuffle 操作等优化手段。原创 2024-04-11 08:50:59 · 1179 阅读 · 0 评论 -
通过 Spark SQL 和 DataFrames 与外部数据源交互
Spark 和 Hive 都会使用到的 UDF 函数通过 JDBC 连接各种外部数据源简单和复杂的数据类型和各种高阶运算符还将了解使用Spark SQL查询Spark的一些不同工具,例如Spark SQL shell、Beeline和Tableau。本文探讨了Spark SQL如何与外部组件接口。我们讨论了创建用户定义函数,包括Pandas udf,并提供了一些执行Spark SQL查询的选项(包括Spark SQL shell、Beeline和Tableau)。原创 2024-04-09 17:37:47 · 1260 阅读 · 0 评论 -
通过 Spark SQL 和 DataFrame 操作表和多种内部数据源总结
本文将探讨 Spark 中 Spark SQL 接口是如何与其他外部组件交互的。为 Spark 上层结构化 API (DataSet, DataFram)提供查询引擎可以读写各种结构化格式的数据(如JSON、Hive表、Parquet、Avro、ORC、CSV)。允许我们使用JDBC/ODBC连接器从外部商业智能(BI)数据源(如Tableau, Power BI, Talend)或rdbms(如MySQL和PostgreSQL)查询数据。原创 2024-04-09 17:35:06 · 1364 阅读 · 0 评论 -
Spark 的结构化 APIs——RDD,DataFrame, Dataset, SparkSQL 使用和原理总结
在本文中,我们将探索 Spark 的结构化 APIs(DataFrames and Datasets)。我们还将看下 Spark SQL 引擎是如何支撑高级的结构化 APIs 的。当Spark SQL在早期的Spark 1.x 中首次引入时, 随后是DataFrames继承了Spark 1.3中SchemaRDDs,此时我们第一次看到了Spark中的结构化 API。原创 2024-04-03 06:00:00 · 1479 阅读 · 0 评论 -
Spark 部署与应用程序交互简单使用说明
在本章中,我们介绍了开始使用Apache Spark所需的三个简单步骤:下载框架,熟悉Scala或PySpark交互shell,掌握高级Spark应用程序概念和术语。我们快速概述了使用转换和操作来编写Spark应用程序的过程,并简要介绍了使用Spark UI来检查所创建的job、stage和task。最后,通过一个简短的示例,展示了如何使用高级结构化api来告诉Spark要做什么——在下一篇文章我将更详细地介绍这些api。原创 2024-04-02 14:46:54 · 1445 阅读 · 1 评论 -
Spark 起源发展与项目架构说明
本文主要讲解 Spark 的起源及其基本理念,Spark 项目的主要组件及其分布式体系结构。原创 2024-04-02 09:31:45 · 1102 阅读 · 0 评论