大数据计算技术（下）——Spark

最新推荐文章于 2024-09-11 21:29:29 发布

SWC_Zhimo

最新推荐文章于 2024-09-11 21:29:29 发布

阅读量345

点赞数 8

分类专栏：学习笔记文章标签：大数据 spark 分布式

本文链接：https://blog.csdn.net/qingzhimo0404/article/details/135396982

版权

学习笔记专栏收录该内容

8 篇文章 1 订阅

订阅专栏

一、Spark概述

Spark官网：Apache Spark™ - Unified Engine for large-scale data analytics

用于大规模数据分析的统一引擎

支持语言：Scala、Java、Python、SQL、R

二、Spark概念

1、Spark运行模式

本地模式：不需要其他资源节点即可执行

独立模式：默认的集群管理模式

Yarn模式：适用Hadoop的Yarn框架进行资源调度

spark-shell    //连接集群并提交，属于交互式环境执行

spark-submit   //属于命令行提交执行

2、Spark运行架构

采用主从结构

集群资源管理器（Cluter Manager），工作节点（Worker Node），驱动器程序（Driver Program），执行器（Executor）

3、Spark基本概念

Executor Core：本地使用多线程方式来模拟分布式计算，local是单线程、local[N]是N个线程、local[*]是本地最大可用CPU线程数

并行度：整个集群并行执行的任务的数量

Spark的三种计算框架：RDD、累加器、广播变量

三、RDD（弹性分布式数据集）基础

1、4种创建方式

从文件创建、从内存创建、由其他RDD转化、new方式直接构造

关注博主即可阅读全文

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

SWC_Zhimo

关注关注

8
点赞
踩
7

收藏

觉得还不错? 一键收藏
1
评论
大数据计算技术（下）——Spark

大数据计算技术课程复习笔记
复制链接

扫一扫

专栏目录

Spark 大数据计算

段哥哥的博客

06-07

2006

【大数据】Spark

屎蛋的铲屎官

12-18

253

一什么是spark spark是一个实现快速通用的集群计算平台。它是由加州大学伯克利分校AMP实验室开发的通用内存并行计算框架，用来构建大型的、低延迟的数据分析应用程序。它扩展了广泛使用的MapReduce计算模型。高效的支撑更多计算模式，包括交互式查询和流处理。二 spark的特点 1 高效性　ＭapReduce过程中Map端输出的结果要落地到磁盘，reduce端从磁盘读取，输出结果还要落...

1 条评论您还未登录，请先登录后发表或查看评论

大数据技术之Spark——Spark SQL

five小点心的博客

04-06

5420

我们之前学习过hive，hive是一个基于hadoop的SQL引擎工具，目的是为了简化mapreduce的开发。由于mapreduce开发效率不高，且学习较为困难，为了提高mapreduce的开发效率，出现了hive，用SQL的方式来简化mapreduce：hive提供了一个框架，将SQL转换成mapreduce来执行。执行的效率不会因此提升，但开发效率会大大提高。

摸鱼大数据——Spark基础——Spark基本介绍

weixin_65694308的博客

06-29

1467

Apache Spark是用于大规模数据（large-scala data）处理的统一（unified）分析引擎。

Day11 —— 大数据技术之Spark

weixin_62804382的博客

06-19

887

Apache Spark是一个快速通用的集群计算系统，是一种与Hadoop相似的开源集群计算环境，但是Spark在一些工作负载方面表现得更加优越。它提供了Java、Scala、Python和R的高级API，以及一个支持通用的执行图计算的优化引擎。它还支持高级工具，包括使用SQL进行结构化数据处理的Spark SQL、用于机器学习的MLlib、用于图处理的GraphX，以及用于实时流处理的Spark Streaming。Apache Spark是一款快速、通用、可扩展的大数据处理框架。

大数据技术实践——Spark词频统计

08-23

【Spark技术实践——词频统计】在大数据领域，Spark作为一种高效的数据处理框架，以其快速、通用和可扩展性而受到广泛关注。本实践旨在基于已经搭建的Hadoop平台，利用Spark组件进行文本词频统计，以此深入理解Scala...

大数据面试之——Spark

01-07

Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。 1.Spark有几种部署模式，各个模式的特点 1.本地模式 Spark不一定非要跑在hadoop集群，可以在本地，起多个线程的方式来指定。方便调试，本地模式分三...

2401_84692226的博客

05-02

928

Python崛起并且风靡，因为优点多、应用领域广、被大牛们认可。学习 Python 门槛很低，但它的晋级路线很多，通过它你能进入机器学习、数据挖掘、大数据，CS等更加高级的领域。Python可以做网络应用，可以做科学计算，数据分析，可以做网络爬虫，可以做机器学习、自然语言处理、可以写游戏、可以做桌面应用…Python可以做的很多，你需要学好基础，再选择明确的方向。这里给大家分享一份全套的 Python 学习资料，给那些想学习 Python 的小伙伴们一点帮助！

2024年Python最全大数据进阶之路——Spark SQL日志分析_spark 捕获异常sql语句

2401_84558914的博客

05-01

219

数据可视化：一副图片最伟大的价值莫过于它能够使得我们实际看到的比我们期望看到的内容更加丰富。检查插入参数和类型是否一直。

深入RabbitMQ世界：探索3种队列、4种交换机、7大工作模式及常见概念

Apple_Boy的博客

09-07

1101

DirectExchange 的路由策略是将消息队列绑定到一个 DirectExchange 上，当一条消息到达 DirectExchange 时会被转发到与该条消息 routing key 相同的 Queue 上，例如消息队列名为 “directQueue1”，则 routingkey 为 “directQueue1” 的消息会被该消息队列接收。// Config@Bean@Bean@Bean@Bean@Bean可以发现我们可以根据routingKey控制发送到哪个队列上，

flink增量检查点启动恢复的时间是很久的，业务上不能接受，怎么处理

goTsHgo的博客

09-11

354

针对增量检查点恢复时间长的问题，可以从多个方面进行优化，包括合并检查点、提升存储性能、优化 RocksDB 配置、并行化恢复过程等。同时，也可以考虑替代方案，如多活架构、预热恢复、降低状态依赖和改进状态管理策略。此外，在业务层面上，适当调整业务容忍度和提高用户透明度也是有效的应对措施。通过综合应用这些策略，可以有效地降低恢复时间并提高业务的连续性和可靠性。

Elasticsearch7.x 集群迁移文档

happy_king_zi的博客

09-11

651

同时检查当前运行集群状态是否为green。如果出现异常，可以配置discovery.zen.ping.unicast.hosts: [“10.200.112.149”, “10.200.112.151”,“10.200.112.153”,“172.31.2.84”, “172.31.0.147”,“172.31.0.94”]，恢复当前关闭节点。操作顺序操作动作1。

【RabbitMQ】工作模式

最新发布

weixin_73060900的博客

09-11

608

对RabbitMQ工作模式的简单概述以及代码案例

衡石分析平台使用手册-新手上路介绍

zandy1011的博客

09-06

1160

以下概括阐述了产品基本理念，这些理念贯穿我们的整个产品开发和设计，并最终体现为产品的功能形态。我们希望衡石分析平台可以成为各个领域的行业人员进行业务分析的称手兵器，简单稳定，容易上手。

从AI到大数据，数字技术服务平台全栈赋能企业升级

smjt2024的博客

09-11

239

海量的数据中蕴含着丰富的信息和价值，数字技术服务平台能够收集、整理和分析这些数据，为企业提供精准的市场洞察和决策支持。企业可以通过参加树莓集团举办的培训课程和研讨会，了解最新的数字技术趋势和应用案例，提升自身的数字技术水平。从技术咨询、解决方案设计到系统实施和运维，数字技术服务平台为企业提供一站式的服务，让企业无需担心技术难题，专注于自身的核心业务。树莓集团的数字技术服务平台，以其先进的技术、专业的服务和丰富的经验，为企业提供了全栈赋能。在数字时代，让我们共同利用数字技术服务平台，开启企业升级的新篇章。

了解开源消息代理RabbitMQ

huaqianzkh的专栏

09-08

1016

RabbitMQ是一个消息代理:它接受并转发消息。你可以把它想象成邮局:当你把要寄的邮件放进邮箱时，你可以确定邮递员最终会把邮件送到收件人那里。在这个比喻中，RabbitMQ是一个邮筒、一个邮局和一个邮递员。RabbitMQ和邮局之间的主要区别在于，它不处理纸张，而是接受、存储和转发二进制数据消息。RabbitMQ和一般的消息传递使用了一些术语。生产只不过意味着发送。发送消息的程序是是RabbitMQ中邮箱的名称。虽然消息流经RabbitMQ和你的应用程序，但它们只能存储在队列中。

如何确定kafka与zookeeper版本的对应关系

别来沾边儿

09-09

526

真希望官方可以贴心的整理出所有版本和zookeeper的对应关系，从目前kafka发展的趋势来看，都已经移除zookeeper依赖了，这件事也是木戏，哈哈哈；从解压目录我们可以kafka的源码是基于gradle的，我们只需要去gradle的依赖中找找zookeeper依赖的版本即可；搜索zookeeper关键字，可以看到Kafka2.7.2对应的Zookeeper版本为3.5.9。大家可以额外思考一下，如果用更高版本的zookeeper，kafka运行会不会有问题？这嘎嘎一列版本对应关系，哪来的呢？

[Go]通用的 MapReduce 工具函数

fishjam的专栏

09-08

838

在 Go 语言中实现基于泛型的 map-reduce 和纤程池

大数据学习之spark——01spark概述

06-28

Spark是一个开源的大数据处理框架，它可以在分布式计算集群上进行高效的数据处理和分析。...Spark的生态系统非常丰富，包括Spark SQL、Spark Streaming、MLlib、GraphX等组件，可以满足不同场景下的数据处理需求。