Cisyamr-CSDN博客

原创大数据学习笔记 3.3 掌握RDD分区

在有些情况下，使用Spark自带的分区器满足不了特定的需求。例如，某学生有以下3科三个月的月考成绩数据。科目成绩chinese98math88english96chinese89math96english67chinese88math78english89现需要将每一科成绩单独分配到一个分区中，然后将3科成绩输出到HDFS的指定目录（每个分区对应一个结果文件），此时就需要对数据进行自定义分区。

2023-05-26 00:00:00 615

整数（Integer）：奇数（odd number）+ 偶数（even number）因为RDD的元素为分布式的，数据可能分布在不同的节点上。基于列表创建RDD，然后利用过滤算子得到偶数构成的新RDD。Spark会将RDD中的每个元素传入该函数的参数中。方法二、采用下划线表达式作为参数传给map()算子。上述代码中，向算子map()传入了一个函数。为函数的参数名称，也可以使用其他字符，例如。若需要查看计算结果，则可使用行动算子。方法一、将匿名函数传给过滤算子。其实，利用神奇占位符。进行计算，并将结果以。

2023-05-25 10:46:58 708

原创大数据学习笔记 3.1 掌握RDD的创建

查看RDD中的内容，保存到常量。注意：访问本地文件，必须加。前缀，否则系统会认为是访问。

2023-05-18 09:12:23 669

原创大数据学习笔记 2.2、IDEA开发词频统计项目

单词计数是学习分布式计算的入门程序，有很多种实现方式，例如MapReduce；使用Spark提供的RDD算子可以更加轻松地实现单词计数。在IntelliJ IDEA中新建Maven管理的Spark项目，在该项目中使用Scala语言编写Spark的WordCount程序，可以本地运行Spark项目查看结果，也可以将项目打包提交到Spark集群（Standalone模式）中运行。

2023-05-15 08:58:02 496

原创大数据学习笔记 2.1 spark开发环境的搭建

上述命令中的–master参数指定了Master节点的连接地址。该参数根据不同的Spark集群模式，其取值也有所不同，常用取值如下表所示。由于Spark仅仅是一种计算框架，不负责数据的存储和管理，因此，通常都会将Spark和Hadoop进行统一部署，由Hadoop中的。：Spark 3.3.2使用的Scala版本其实是2.12.15。、HBase等组件负责数据的存储管理，Spark负责数据计算。安装Spark集群前，需要安装Hadoop环境。计算1 + 2 + 3 + ……

2023-05-08 09:54:04 1087

原创大数据学习笔记 1.7 Scala类、对象、抽象类与特质

对象是类的具体实例，类是抽象的，不占用内存，而对象是具体的，占用存储空间。面向对象三大特性之一：封装（encapsulation） - 封装数据和操作Scala中一个简单的类定义是使用关键字class，类名首字母必须大写。类中的方法用关键字def定义创建包，在包里创建User类说明：在Scala里，如果一个类不写访问修饰符，那么默认访问级别为public，这与Java是不一样的。辅助构造器的方法名称为this每一个辅助构造器的方法体中必须首先调用其他已定义的构造器辅助构造器的参数。

2023-04-27 09:18:55 276 3

原创大数据学习笔记 1.6 Scala数据结构

数组的静态初始化自动推断数组类型手动指定数据类型定义时指定数组长度，后赋值避免数组下标越界错误（数据溢出：Data Overflow）变长数组使用类进行定义定义一个变长Int类型数组arr，利用+=运算符、append方法添加一个数组元素（注意是追加元素），还可以利用appendAll方法添加一个数组（多个元素）定义一个元组student（自动推断）定义一个空的不可变集合set1（Nothing - 一无所有，Scala所有类的子类）定义一个非空的不可变集合set2。

2023-04-20 10:59:15 553 1

原创大数据学习笔记1.5 Scala内建控制结构

Scala中继承了Java的异常机制，提供了程序中产生意外情况时处理的机制，抛出异常的过程和Java中基本一致，通过throw，一旦抛出可以当场捕获处理或接着向上抛，捕获异常是通过来实现的。

2023-04-06 09:48:49 132

原创大数据学习笔记1.4 Scala运算符的运用

一、运算符等价于方法Scala中运算符即方法、方法即运算符。Scala中运算符其实是普通方法调用的另一种表现形式，运算符的使用其实就是隐含地调用对应的方法。

2023-03-19 14:26:50 103

原创大数据学习笔记1.3 Scala集成开发环境

一、搭建Scala的IntelliJ IDEA开发环境IntelliJ IDEA（简称IDEA）是一款支持Java、Scala和Groovy等语言的开发工具，主要用于企业应用、移动应用和Web应用的开发。IDEA在业界被公认为是很好的Java开发工具，尤其是智能代码助手、代码自动提示、重构、J2EE支持等功能非常强大。

2023-02-27 00:00:00 154

原创大数据学习笔记1.2 Scala变量与数据类型

Nothing没有对象，因此没有具体值，但是可以用来定义一个空类型，类似于Java中的标示性接口（如Serializable，用来标识该类可以进行序列化）。Null是所有引用类型（AnyRef）的子类，所以Null可以赋值给所有的引用类型，但不能赋值给值类型，这个和Java的语义是相同的。（1） String在java.lang包下，其余类型在scala包下，由于Scala会自动导入java.lang和scala包，因此这些类型可以在程序中直接使用。在Scala中，所有的值都有一个类型，包括数值和函数。

2023-02-26 12:24:49 184

原创大数据学习笔记1.1 Scala的了解与环境搭建

Scala 是一门多范式（multi-paradigm）的编程语言，设计初衷是要集成面向对象编程和函数式编程的各种特性。Scala 运行在 Java 虚拟机上，并兼容现有的 Java 程序。Scala是Scalable Language的简写，是一门多范式的编程语言，由联邦理工学院洛桑（EPFL）的Martin Odersky于2001年基于Funnel的工作开始设计，设计初衷是要集成面向对象编程和函数式编程的各种特性。

2023-02-25 15:26:41 742 3

原创大数据上课笔记之初识MapReduce

（5）Mapper组件会将每行内容，作为输入value，通过map()传给程序员，重点是获取输入value。（6）Mapper的第一个泛型类型对应的是输入key的类型，第二个泛型类型对应的输入value。（4）Mapper组件将每行的行首偏移量，作为输入key，通过map()传给程序员。（9）通过context进行结果的输出，以输出key和输出value的形式来输出。（10）输出key是由第三个泛型类型决定，输出value是由第四个泛型类型决定。（8）map()被调用几次，取决于文件的行数。

2022-12-15 20:53:41 331