saddwe-CSDN博客

原创大数据实时处理3.8 Spark RDD典型案例

读取成绩文件，生成lines；定义二元组成绩列表；遍历lines，填充二元组成绩列表；基于二元组成绩列表创建RDD；对rdd按键归约得到rdd1，计算总分；将rdd1映射成rdd2，计算总分与平均分。1、启动HDFS服务。

2023-06-16 14:33:38 164

原创大数据实时处理4.2 Spark SQL数据源 - 基本操作

Spark SQL提供了两个常用的加载数据和写入数据的方法：load()方法和save()方法。load()方法可以加载外部数据源为一个DataFrame，save()方法可以将一个DataFrame写入指定的数据源。二、默认数据源。

2023-06-09 10:01:04 197

在分布式程序中，网络通信的开销是很大的，因此控制数据分布以获得最少的网络传输可以极大的提升程序的整体性能，Spark程序可以通过控制RDD分区方式来减少通信开销。Spark会给每一个分区分配一个单独的Task任务对其进行计算，因此并行Task的数量是由分区的数量决定的。如果是本地模式，默认分区数量就等于本机CPU核心总数，这样每个CPU核心处理一个分区的计算任务，可以最大程度发挥CPU的性能。第1个分区完成了3个元素的映射，第2个分区完成了3个元素的映射，第3个分区完成了4个元素的映射。

2023-06-09 09:56:18 357

原创大数据实时处理 2.4 IDEA开发词频统计项目

掌握本地模式执行Spark程序掌握集群模式执行Spark程序单词计数是学习分布式计算的入门程序，有很多种实现方式，例如MapReduce；使用Spark提供的RDD算子可以更加轻松地实现单词计数。在IntelliJ IDEA中新建Maven管理的Spark项目，在该项目中使用Scala语言编写Spark的WordCount程序，可以本地运行Spark项目查看结果，也可以将项目打包提交到Spark集群（Standalone模式）中运行。

2023-06-09 09:49:27 137

原创大数据实时处理 2.2 搭建Spark开发环境

由于Spark仅仅是一种计算框架，不负责数据的存储和管理，因此，通常都会将Spark和Hadoop进行统一部署，由Hadoop中的HDFS、HBase等组件负责数据的存储管理，Spark负责数据计算。安装Spark集群前，需要安装Hadoop环境Standalone模式被称为集群单机模式。该模式下，Spark集群架构为主从模式，即一台Master节点与多台Slave节点，Slave节点启动的进程名称为Worker，存在单点故障的问题。Mesos模式被称为Spark on Mesos模式。

2023-06-09 09:45:07 105

原创大数据实时处理 2.1 初识Spark

（一）Spark的组件Spark在2013年加入Apache孵化器项目，之后获得迅猛的发展，并于2014年正式成为Apache软件基金会的顶级项目。Spark生态系统已经发展成为一个可应用于大规模数据处理的统一分析引擎，它是基于内存计算的大数据并行计算框架，适用于各种各样的分布式平台的系统。在Spark生态圈中包含了Spark SQL、Spark Streaming、GraphX、MLlib等组件。

2023-06-09 09:36:35 459

原创大数据实时处理 1.2 Scala变量与数据类型

（一）简单说明Scala中变量的声明使用关键字val和var。val类似Java中的final变量，也就是常量，一旦初始化将不可修改；var类似Java中的非final变量，可以被多次赋值，多次修改。val - value - 值var - variable - 变量1、声明方式val <变量名>[: 数据类型] = 变量值定义变量比较灵活，可以指定数据类型，也可以不指定数据类型，由Scala根据赋的值自行判断数据类型。

2023-06-09 09:32:51 81

原创大数据实时处理 1.1搭建Scala开发环境

（一）Scala概述Scala是Scalable Language的简写，是一门多范式的编程语言，由联邦理工学院洛桑（EPFL）的Martin Odersky于2001年基于Funnel的工作开始设计，设计初衷是要集成面向对象编程和函数式编程的各种特性。Scala是一种将面向对象和函数式编程结合在一起的高级语言，旨在以简洁、优雅和类型安全的方式表达通用编程模式。Scala功能强大，不仅可以编写简单脚本，还可以构建大型系统。

2023-06-09 09:29:01 259