spark初识

最新推荐文章于 2024-10-17 15:34:15 发布

starkpan

最新推荐文章于 2024-10-17 15:34:15 发布

阅读量186

点赞数

分类专栏： spark 文章标签： spark 大数据

本文链接：https://blog.csdn.net/starkpan/article/details/86645752

版权

spark 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

spark官网

http://spark.apache.org

hadoop缺陷：

hadoop处理流程较为复杂，在map-reduce过程中需要不断的将数据落入磁盘，造成性能低下。

spark优化：

基于内存进行计算，尽量不落地，提高效率。达到hadoop的10-100倍处理速度。

spark设计：

基于actor模式的akka框架，代码结构简洁。
基于DAG（有向无环图）的执行引擎，减少了计算时频繁读写磁盘的开销。
RDD弹性分布式数据集，统一了各个数据源的数据形式，使后期计算不用再考虑数据格式引发的问题，且可进行分布式处理（数据源如日志，mysql，Nosql，爬虫爬取等）
提供Cache机制来实现数据共享，进一步提升性能。（比方说一个运算需要10步，可以在第5步进行缓存）
生态圈丰富，支持sparkCore、sparkSql（可对标hive）、sparkStreaming（可对标storm）、Graphix（图计算）、MLlib（机器学习）
支持java、scala、python。
底层使用HDFS作为存储结构，可使用yarn作为协调框架。

spark local模式搭建

https://blog.csdn.net/starkpan/article/details/86437089

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

starkpan

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

大数据——Spark GraphX介绍

Vicky_Tang

08-04

1万+

一、GraphX介绍 Spark GraphX是一个分布式图处理框架，它是基于Spark平台提供对图计算和图挖掘简洁易用的而丰富的接口，极大的方便了对分布式图处理的需求。众所周知，社交网络中人与人之间有很多关系链，例如Twitter、Facebook、微博和微信等，这些都是大数据产生的地方都需要图计算，现在的图处理基本都是分布式的图处理，而并非单机处理。Spark GraphX由于底层是基于Spark来处理的，所以天然就是一个分布式的图处理系统。图的分布式或者并行处理...

spark-初探

ZHANGJNWEI的专栏

01-19

377

Spark关键数据结构： RDD(Resilient Distributed Dataset) --> 弹性分布式数据集 RDD有actions(有返回值),transformations(产生新的RDD)； filter和map是transformations动作； val textFile = sc.textFile("/home/centos/wc.txt"); val wo

1 条评论您还未登录，请先登录后发表或查看评论

Spark 初识

热门推荐

12-08

3万+

从今天开始我们进入数据仓库的查询引擎篇了，前面我们已经写了大量的文章介绍Hive,具体你可以看hive 的专栏,而且关于工具这一块我们的重点就在hive 上，后面关于spark、presto、impala、clickHouse的介绍都不会像前面这样细了，因为我们的重点是在数仓建设的方法论上面，而不是工具上面。Spark 是一种高效且多用途的集群计算平台。换句话说，Spark 是一种开源的，大规模数据处理引擎。它提供了一整套开发 API，包括流计算、机器学习或者SQL。Spark 支持批处理和流处理。批处理指

spark 初识

mizui_i的博客

12-05

129

一.概述 大数据领域分类离线处理实时处理 大数据开发瓶颈 IO 绝大多数的瓶颈都卡在这里计算一般涉及到深度学习,人工智能等领域会遇到计算瓶颈,一般放在GPU上去跑 spark mapreduce遇到的瓶颈操作类型有限,仅支持map和reduce两种操作编程复杂较高,学习成本高处理效率低 map中间结果xie磁盘,reduce结果xiehdfs,多个mr之间通过hdfs交换数据任务调度和启动开销比较大

SPARK初识

JIE_ling8的博客

11-08

153

做项目基本流程 3、串联整个流程即标准化及正式上线 2、解决关键性问题 1、梳理数据流程解决关键性问题对比差异点 1、数据的文件组织形式不同 2、数据的数据格式不同相同点数据流程一样数据目标也是一样曝光 Exposure 广告领域专业术语 Pv:page visit,曝光一次即为一个pv。 Uv: uniq visit,或者叫user visit，即用户去重后的统计。 Spark的背景、定义、特点背景 MapReduce计算和磁盘交互 Spark计算和内存交互 Spark速度远远快于Ma..

Spark初识

weixin_48370579的博客

07-12

Spark初识回顾一下前面的MapReduce流程，可以更好的学习spark spark的框架 spark为什么比hadoop速度快 spark支持哪些语言 spark的运行模式有哪些 spark的单词统计 package com.core import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, Spa...

Spark之一 Spark初识

weixin_44327656的博客

02-24

352

目录什么是Spark？为什么要使用Spark？Spark的架构Spark的应用场景什么是Spark？        官网地址:https://spark.apache.org/        Apache Spark™是用于大规模数据处理的统一分析引擎。

spark初识与内核

2403_83630621的博客

07-14

659

Spark，是一个大数据计算引擎，是一个用scala语言编写的计算框架，基于内存的快速、通用、可扩展的大数据分析引擎，能够计算大量的数据，例如hadoop中hdfs上的数据。

Spark学习笔记（一）Spark初识【特性、组成、应用】

08-25

Apache Spark 是一款强大的分布式计算系统，专为大规模数据处理设计，旨在提高数据处理的速度和效率。Spark 的核心优势在于其内存计算的能力，这使其相比传统的MapReduce模型在性能上有显著提升。本篇文章将对Spark...

spark初识-使用rdd与sparksql 分词

qq_43961797的博客

01-14

1536

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Markdown编辑器你好！这是你第一次使用 Markdown编辑器所展示的欢迎页。如果你想学习如何使用Mar

Spark学习之路（一）Spark初识

微信搜：import_bigdata，大数据领域硬核原创作者

02-12

643

大数据spark初识

沙漏遗失了年华

07-28

180

1.什么是spark？ Spark 是一个用来实现快速而通用的集群计算的平台。在速度方面，Spark 扩展了广泛使用的 MapReduce 计算模型，而且高效地支持更多计算模式，包括交互式查询和流处理。在处理大规模数据集时，速度是非常重要的。速度快就意味着我们可以进行交互式的数据操作，否则我们每次操作就需要等待数分钟甚至数小时。Spark 的一个主要特点就是能...

Spark初识（学习总结一）

Fys的博客

03-20

943

一、什么是spark 官网在此 Apache Spark™是用于大规模数据处理的统一分析引擎。美国加州大学伯克利分校AMP实验室开发的大数据处理框架。 Spark在2013年6月进入Apache成为孵化项目，8个月后成为Apache顶级项目。 Spark可以用R语言、Java、Scala和python进行编写。使用R语言编写占到极少数，python编写spark效率不及Java和Scala，Ja...

Spark SQL 的离线数仓开发

m0_70882914的博客

10-15

226

Spark SQL的离线数仓开发

Apache Storm实时流处理的核心技术

hello.reader

10-16

1194

Apache Storm 是一个流处理引擎，它可以持续处理不断到来的数据流（streams）。Storm 允许用户构建拓扑（Topology）来定义数据流的路径以及处理的逻辑。在这种拓扑中，数据从源（Spout）开始流入，通过一系列的处理节点（Bolt）进行转换或处理，最终得到输出结果。Storm 的架构基于并行执行的理念，支持高吞吐量和低延迟的数据处理。分布式数据流处理：Storm 可以在分布式环境下处理大量数据，支持大规模的集群部署。容错和高可用性。

大数据存储计算平台EasyMR：大数据集群动态扩缩容，快速提升集群服务能力