《spark实战》笔记06--应用库--整体介绍

最新推荐文章于 2024-10-02 10:46:38 发布

chijinyan

最新推荐文章于 2024-10-02 10:46:38 发布

阅读量170

点赞数 1

分类专栏：大数据 spark 文章标签： spark

大数据同时被 2 个专栏收录

8 篇文章 0 订阅

订阅专栏

spark

8 篇文章 0 订阅

订阅专栏

来源：《spark实战》讲义

[1 ]Spark之上提供了四种应用库：

Spark SQL 是为处理结构化数据而设计的模块
Spark Streaming 可以很容易地创建可扩展和容错性的流式应用
MLlib 是Spark的可扩展机器学习库
GraphX 是Spark的并行图计算 API

[2 ]Spark序列化：

Spark默认是使用Java的 ObjectOutputStream框架，它支持所有的继承于java.io.Serializable序列化。
Spark还支持这种方式Kryo serialization，它的速度快，而且压缩比高于Java的序列化，通常比Java快10x，并且需要在程序里面注册

[3 ]Spark的共享变量：

Broadcast
read-only
从task粒度上升到node粒度
广播变量被创建后，能在集群中运行的任何函数调用
Accumulators
累加器Added
MapReduce中的counters就是不断累加的变量
Spark原生支持Int和Double类型的累加变量

[4 ]RDD的工作原理：
在这里插入图片描述

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

chijinyan

关注关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

《spark实战》笔记07--应用库--Spark SQL

u014149997的博客

06-17

173

来源：《spark实战》讲义 [1 ]Spark SQL SparkSQL提供了完整的数据写入支持，从而补全了多数据源互操作的最后一块重要拼图。可以与Hive、 Parquet、 JSON、 Pandas等多种数据源间的任意转换，正是这一增强的直接成果。 Spark SQL的特点: 引入了新的RDD类型SchemaRDD，可以象传统数据库定义表一样来定义SchemaRDD， Schem...

php spark,spark四大组件是什么？

weixin_42518981的博客

03-10

809

spark四大组件分别为：1、SparkStreaming，针对实时数据进行流式计算的组件；2、SparkSQL，用来操作结构化数据的组件；3、GraphX，Spark面向图计算提供的框架与算法库；4、MLlib，一个机器学习算法库。相关推荐：《编程视频课程》spark四大组件1、SparkStreaming:众多应用领域对实时数据的流式计算有着强烈的需求，例如网络环境中的网页服务器日志或是由用户...

参与评论您还未登录，请先登录后发表或查看评论

SparkMLlib机器学习库与应用

AI天才研究院

01-25

724

1.背景介绍 1. 背景介绍 Apache Spark是一个快速、通用的大规模数据处理框架，可以用于批处理、流处理和机器学习任务。Spark MLlib是Spark框架的一个机器学习库，用于构建和训练机器学习模型。MLlib提供了许多常用的机器学习算法，如线性回归、梯度提升、随机森林等，可以用于处理各种类型的数据。在本文中，我们将深入探讨Spark MLlib的核心概念、算法原理、最佳实践...

《spark实战》笔记02--Spark基础概念

u014149997的博客

06-17

190

来源：《spark实战》讲义 [1 ] Spark生态系统 [2 ] Spark特点先进架构 • Spark采用Scala语言编写，底层采用了actor model的akka作为通讯框架，代码十分简洁高效。 • 基于DAG图的执行引擎，减少多次计算之间中间结果写到Hdfs的开销。 • 建立在统一抽象的RDD（分布式内存抽象）之上,使得它可以以基本一致的方式应对不同的大数据处理场...

Spark大数据分析与实战笔记（第三章 Spark RDD 弹性分布式数据集-03）

想你依然心痛的博客

02-22

2万+

依赖关系分为窄依赖和宽依赖，窄依赖表示每个父RDD的分区最多只被一个子RDD的分区使用，宽依赖表示每个父RDD的分区可以被多个子RDD的分区使用。需要注意的是，RDD的分区函数是针对(Key,Value)类型的RDD，分区函数根据Key对RDD元素进行分区。RDD是Spark提供的最重要的抽象概念，我们可以将RDD理解为一个分布式存储在集群中的大型数据集合，不同RDD之间可以通过转换操作形成依赖关系实现管道化，从而避免了中间结果的I/O操作，提高数据处理的速度和性能。接下来，本章将针对RDD进行详细讲解。

图解大数据 | 大数据分析挖掘-Spark初步

ShowMeAI研究中心

03-08

1万+

Apache Spark是目前最主流和常用的分布式开源处理系统，支持跨多个工作负载重用代码—批处理、交互式查询、实时分析、机器学习和图形处理等。本节ShowMeAI给大家讲解它的相关知识。

Spark源码阅读03-Spark存储原理之序列化和压缩

m0_75232472的博客

05-02

892

针对最近很多人都在面试，我这边也整理了相当多的面试专题资料，也有其他大厂的面经。希望可以帮助到大家。下面的面试题答案都整理成文档笔记。也还整理了一些面试资料&最新2021收集的一些大厂的面试真题（都整理成文档，小部分截图）最新整理电子书《一线大厂Java面试题解析+核心总结学习笔记+最新讲解视频+实战项目源码》点击传送门，即可获取！结学习笔记+最新讲解视频+实战项目源码》点击传送门，即可获取！**

Spark大数据分析与实战笔记（第一章 Scala语言基础-1）

热门推荐

想你依然心痛的博客

08-24

4万+

Scala于2001年由洛桑联邦理工学院（EPFL）的编程方法实验室研发，它由Martin Odersky（马丁•奥德斯基）创建。目前，许多公司依靠Java进行的关键性业务应用转向或正在转向Scala，以提高其开发效率、应用程序的可扩展性和整体的可靠性。Scala是Scalable Language的简称，它是一门多范式的编程语言，其设计初衷是实现可伸缩的语言、并集成面向对象编程和函数式编程的各种特性。具体如下：Scala是面向对象的Scala是一种纯粹的面向对象语言，每一个值都是一个对象。

图解大数据 | 流式数据处理-Spark Streaming

ShowMeAI研究中心

03-08

1万+

Spark Streaming是Spark核心API的一个扩展，可以实现实时数据的可拓展，高吞吐量。本文讲解Spark Streaming的架构、作业提交和工作原理，以及DStream的创建、转换和Graph，并通过案例代码展示应用的细节。

大数据笔记kafka-jvm.zip

10-26

2. 性能调优实战：通过监控工具（如VisualVM、JConsole）分析JVM性能，结合Kafka的监控指标（如生产者和消费者速率、延迟等），进行整体性能优化。六、案例分析 1. 实战示例：分享实际项目中Kafka与JVM协同工作的...

scala-sparkML学习笔记：迁移文件/ 通过 .!! 隐式方法直接执行系统命令

MachineLP的专栏

11-13

229

Scala作为script使用也是非常的方便。原文地址：https://www.yangbajing.me/2019/03/22/scala实战：迁移文件/ 还可以参考：Scala-通过ProcessBuilder执行hive命令：https://blog.csdn.net/qq_16038125/article/details/86682405 浅析ProcessBuilder：http...

数据中台建设（从方法论到落地实战）-读书笔记3

baidu_38792549的博客

04-06

827

3 数据中台建设方法论

一文速学-XGBoost模型算法原理以及实现+贷款违约预测模型Python项目实战

master_hunter的博客

04-03

9033

集成模型Boosting补完计划第三期了，之前我们已经详细描述了AdaBoost算法模型和GBDT原理以及实践。通过这两类算法就可以明白Boosting算法的核心思想以及基本的运行计算框架，余下几种Boosting算法都是在前者的算法之上改良得到，尤其是以GBDT算法为基础改进衍生出的三种Boosting算法：XGBoost、LightGBM、CatBoost。大家应该都对XGBoost算法模型熟悉但是对GBDT模型一无所知，看过之前GBDT的读者应该对GBDT模型有了一个很清楚的认知，对于理解XGBoos

数据仓库的建设——从数据到知识的桥梁

ith321的博客

10-02

1802

数据仓库的建设——从数据到知识的桥梁

【超强组合】基于淘金优化算法GRO-BP-Adaboost的数据分类预测算法Matlab实现.rar

最新发布

10-08

1.版本：matlab2014/2019a/2024a 2.附赠案例数据可直接运行matlab程序。 3.代码特点：参数化编程、参数可方便更改、代码编程思路清晰、注释明细。 4.适用对象：计算机，电子信息工程、数学等专业的大学生课程设计、期末大作业和毕业设计。替换数据可以直接使用，注释清楚，适合新手

VMware Workstation Pro 和 VMware Fusion 安装与配置指南

10-08

内容概要：本文档详细指导了如何在不同的主机环境下，通过 VMWare 的两款产品——Workstation Pro 和 Fusion 进行新虚拟机的构建流程以及具体的操作要点说明。适用人群：希望在单一机器上部署多操作系统的工作环境或学习测试场景的技术人员和学生。使用场景及目标：旨在帮助初学者搭建属于自己的虚拟机实验平台，从而方便进行软件测试或者研究操作系统相关的新特性等任务，同时也有利于团队间的协作和资源调配。注意事项：文中涉及的具体操作如下载源文件、配置网络参数时要注意版权合法性问题和技术安全防范。此外还需依据各自电脑的软硬件条件适当增减虚拟机的资源设定。

科研经费管理系统 SSM毕业设计源码+数据库+论文（JAVA+SpringBoot+Vue.JS）.zip

10-08

科研经费管理系统 SSM毕业设计源码+数据库+论文（JAVA+SpringBoot+Vue.JS）启动教程：https://www.bilibili.com/video/BV1GK1iYyE2B

使用Python Matplotlib进行图形输出与保存详解（包含详细的完整的程序和数据）

10-08

内容概要：本文详细介绍了使用 Python 的 Matplotlib 库来输出和保存图形的方法。不仅涉及了基本流程，如生成图表并将之导出成PNG、PDF和SVG等不同格式的内容，还包括高级话题如设置透明度、分辨率以及制作包含图形元素的HTML页面等。文章通过一个具体的示例代码讲解了各个环节的关键细节和技术要点。适用人群：对数据可视化有兴趣的初学者及具有一定基础想要深入学习 Matplotlib 使用技巧的技术人员。使用场景及目标：适用于需要掌握 Matplotlib 不同输出选项及其特点的应用场合，尤其是当需要生成用于打印或网页展示的高质量、可自定义外观的图形时。

掌握Spark-submit：部署与应用提交指南

Spark-submit是Apache Spark项目中的一个重要组件，用于在集群上提交、管理和监控Spark应用程序的执行。它允许用户轻松地在Hadoop分布式文件系统（HDFS）上运行大规模的数据处理任务，无需详细了解底层的集群配置和...