笨҉丫҉头҉d҉e҉傻҉小҉子҉-CSDN博客

转载大数据处理学习笔记1.6 Scala数据结构

自动推断数组类型手动指定类型先定义，后赋值避免数组下标越界错误变长数组使用类进行定义定义一个变长Int类型数组arr，利用+=运算符、append方法添加一个数组元素（注意是追加元素），还可以利用appendAll方法添加一个数组（多个元素）遍历数组arr，跟遍历定长数组没有不同利用remove方法可以按下标删除数组元素，当然可能出现下标越界异常利用-=运算符按值直接删除数组元素数组中有多个值为2的元素，则从前向后删除第一个匹配的元素，本次删除，第一个2被删除了，但是第二2还依然存在。

2023-06-16 14:47:48 180

转载大数据处理学习笔记1.7 掌握Scala类、对象、抽象类与特质

对象是类的具体实例，类是抽象的，不占用内存，而对象是具体的，占用存储空间。面向对象三大特性之一：封装（encapsulation） - 封装数据和操作Scala中一个简单的类定义是使用关键字class，类名首字母必须大写。类中的方法用关键字def定义创建net.huawei.day04包，在包里创建User类，包含三个私有属性和一个公共方法/*** 功能：用户类* 作者：zyf* 日期：2023年03月日*/private var name = "张三丰"

2023-06-15 12:38:40 177

转载 Spark大数据处理讲课笔记1.8 掌握Scala函数

函数其实是一段具有特定功能的代码的集合，由函数修饰符、函数名、函数参数列表、函数返回值声明与函数体组成。

2023-06-15 12:35:04 146

转载 Spark大数据处理讲课笔记2.2 搭建Spark开发环境

Spark Standalone集群使用Spark自带的资源调度框架，但一般我们把数据保存在HDFS上，用HDFS做数据持久化，所以Hadoop还是需要配置，但是可以只配置HDFS相关的，而Hadoop YARN不需要配置。启动Spark Standalone集群，不需要启动YARN服务，因为Spark会使用自带的资源调度框架。另一方面，行动操作会对RDD 计算出一个结果，并把结果返回到驱动器程序中，或把结果存储到外部存储系统（如。创建出来后，RDD 支持两种类型的操作：转化操作（例1、创建一个RDD。

2023-06-15 12:33:08 184

转载 Spark大数据处理讲课笔记3.1 掌握RDD的创建

想法是活的，语法是死的，重要的是得先有想法，然后用语法去实现。（既可以读取本地文件，也可以读取HDFS文件），查看RDD中的内容，保存到常量。课堂练习：给输出数据添加行号。

2023-06-15 12:30:42 150

转载 Spark大数据处理讲课笔记2.4 IDEA开发词频统计项目

配置命令行参数，注意两个参数之间必须有空格。新建Maven项目，基于JDK11。安装配置Scala 2.12.15。在一堆输出信息中查看词频统计结果。（2）采用cluster提交方式。（1）采用client提交方式。2）采用cluster提交方式。

2023-06-15 12:30:35 151

转载 3.2 掌握RDD算子

函数本质就是一种特殊的映射。上面这个映射写成函数：f ( x ) = 2 x , x ∈ R f(x)=2x,x\in \Bbb Rf(x)=2x,x∈R。，不是一元函数，而是二元函数，系统立马就蒙逼了，不晓得该怎么取两个参数来进行乘法运算。但是有点美中不足，rdd2的元素变成了双精度实数，得转化成整数。因为RDD的元素为分布式的，数据可能分布在不同的节点上。Spark会将RDD中的每个元素传入该函数的参数中。都为转化算子，调用转化算子不会立即计算结果。为函数的参数名称，也可以使用其他字符，例如。

2023-06-15 12:23:20 108

转载 3.3 掌握RDD分区

在有些情况下，使用Spark自带的分区器满足不了特定的需求。例如，某学生有以下3科三个月的月考成绩数据。科目成绩chinese98math88english96chinese89math96english67chinese88math78english89现需要将每一科成绩单独分配到一个分区中，然后将3科成绩输出到HDFS的指定目录（每个分区对应一个结果文件），此时就需要对数据进行自定义分区。

2023-06-15 12:21:41 109

转载 3.5 RDD持久化机制

若RDD3没有持久化保存，则每次对RDD3进行操作时都需要从textFile()开始计算，将文件数据转化为RDD1，再转化为RDD2，最终才得到RDD3。如果希望手动删除RDD，而不是等待该RDD被Spark自动从缓存中删除，那么可以使用RDD的。Spark的缓存是容错的：如果缓存的RDD的任何分区丢失，Spark就会按照该RDD原来的转换过程自动重新计算并缓存。上述操作说明，调用RDD的persist()方法只是将该RDD标记为持久化，当执行行动操作时才会对标记为持久化的RDD进行持久化操作。

2023-06-15 12:17:46 96

转载【无标题】3.6 RDD容错机制

会单独启动一个任务将标记为检查点的RDD的数据写入文件系统，如果RDD的数据已经持久化到了内存，将直接从内存中读取数据，然后进行写入，提高数据写入效率，否则需要重复计算一遍RDD的数据。方法指定的文件系统目录中，并且该RDD的所有父RDD依赖关系将被移除，因为下一次对该RDD计算时将直接从文件系统中读取数据，而不需要根据依赖关系重新计算。在第一次行动计算时，被标记为检查点的RDD的数据将以文件的形式保存在。语句，关闭了Spark容器，缓存的数据就被清除了，当然也无法访问Spark的存储数据。

2023-06-15 12:16:03 107