Apache Spark

杀神lwz

已于 2024-03-29 23:37:14 修改

阅读量461

点赞数 6

于 2024-03-25 00:26:48 首次发布

本文链接：https://blog.csdn.net/weixin_42472027/article/details/136858357

版权

大数据专栏收录该内容

13 篇文章 0 订阅

订阅专栏

本文介绍了ApacheSpark，一个基于RDD的并行计算框架，它改进了MapReduce的性能，支持多种编程语言和数据结构，适用于结构化、半结构化和非结构化数据处理。同时提及了与Hadoop分布式文件系统的对比。

摘要由CSDN通过智能技术生成

一、Apache Spark

1、Spark简介

Apache Spark是用于大规模数据 (large-scala data) 处理的统一 (unified) 分析引擎。

Spark官网

Spark最早源于一篇论文Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing，该论文是由加州大学柏克莱分校的Matei Zaharia等人发表的。论文中提出了一种弹性分布式数据集(即RDD)的概念。

    A distributed memory abstraction that lets programmers perform n in-memory computations 
on large clusters in a fault-tolerant manner.
翻译过来就是:RDD 是一种分布式内存抽象，其使得程序员能够在大规模集群中做内存运算，
并且有一定的容错方式。而这也是整个 Spark 的核心数据结构，Spark整个平台都围绕着RDD进行。