
Spark
文章平均质量分 93
《Spark》专栏聚焦于深入探索Apache Spark技术的种种奥秘。我们将深度挖掘分布式计算框架、内存计算技术以及大规模数据处理的最佳实践。这里提供实用的教程、性能优化技巧以及实际应用案例。专栏内容涵盖Spark生态系统的方方面面,帮助您更好地利用Spark解决现实世界中的数据挑战。
星川皆无恙
大数据技术领域优质创作者 阿里云开发Clouder技能认证 持续更新各种大数据技术讲解及优质项目 苦尽甘来时,我再跟你讲来时的路
展开
-
Linux Ubuntu环境下使用docker构建spark运行环境(超级详细)
这篇文章深入研究了在Linux Ubuntu环境下使用Docker构建Spark运行环境的详细步骤。首先,文章介绍了Spark的基本概念以及在大数据处理中的关键作用,为读者提供了对Spark的背景和价值的全面了解。随后,文章逐一解释了在Ubuntu系统中安装和配置Docker的具体步骤,为搭建Spark环境做好准备。文章以超级详细的方式呈现了每个关键步骤,确保读者能够清晰理解并成功实施。最终,本文为在Linux Ubuntu环境下构建和配置Spark运行环境提供了实用的指南,为大数据处理提供了一个强大的工具原创 2023-12-13 21:50:19 · 1562 阅读 · 0 评论 -
大数据与云计算:Spark的安装与配置(保姆级教程!)
Apache Spark是一个基于内存的分布式计算框架,它提供了高效、强大的数据处理和分析能力。与传统的Hadoop MapReduce相比,Spark的主要优势在于其能够将数据集缓存在内存中,从而大大减少了磁盘I/O操作,提高了数据处理速度。Spark提供了多种编程接口,包括Scala、Java、Python和R等,同时还提供了交互式Shell,易于使用和快速调试。原创 2023-09-24 23:05:03 · 3386 阅读 · 0 评论 -
大数据技术之Hadoop(Yarn)
Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。更多关于yarn的详细内容及案例详情请看本博客。原创 2023-01-25 22:53:30 · 1396 阅读 · 2 评论 -
大数据技术之SparkSQL(超级详细)
Spark SQL是Spark用来处理结构化数据的一个模块,它提供了2个编程抽象:DataFrame和DataSet,并且作为分布式SQL查询引擎的作用。它是将Hive SQL转换成MapReduce然后提交到集群上执行,大大简化了编写MapReduc的程序的复杂性,由于MapReduce这种计算模型执行效率比较慢。所以Spark SQL的应运而生,它是将Spark SQL转换成RDD,然后提交到集群执行,执行效率非常快!原创 2023-01-11 20:07:06 · 31600 阅读 · 2 评论 -
大数据技术之SparkCore
Spark Core是spark的核心与基础,实现了Spark的基本功能,包含任务调度,内存管理,错误恢复与存储系统交互等模块Spark Core中包含了对Spark核心API——RDD API(弹性分布式数据集)的定义:RDD表示分布在多个计算节点上可以并行操作的元素集合,是spark的核心抽象。原创 2022-12-23 20:25:35 · 3495 阅读 · 2 评论 -
大数据技术之Spark基础解析
Apache Spark是专为大规模数据处理而设计的快速通用的计算引擎。它支持多语言,提供了 Java、Scala、Python 和 R 中的高级 API,以及支持通用执行图的优化引擎。它还支持一组丰富的更高级别的工具,包括Spark SQL用于SQL和结构化数据的处理,MLlib机器学习,GraphX用于图形处理,以及结构化流的增量计算和流处理。现在形成一个高速发展应用广泛的生态系统。原创 2022-12-14 18:33:58 · 1560 阅读 · 0 评论