自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(22)
  • 收藏
  • 关注

原创 大数据学习笔记 3.3 掌握RDD分区

在有些情况下,使用Spark自带的分区器满足不了特定的需求。例如,某学生有以下3科三个月的月考成绩数据。科目成绩chinese98math88english96chinese89math96english67chinese88math78english89现需要将每一科成绩单独分配到一个分区中,然后将3科成绩输出到HDFS的指定目录(每个分区对应一个结果文件),此时就需要对数据进行自定义分区。

2023-05-26 00:00:00 423

原创 大数据学习笔记 3.2 RDD算子学习

整数(Integer):奇数(odd number)+ 偶数(even number)因为RDD的元素为分布式的,数据可能分布在不同的节点上。基于列表创建RDD,然后利用过滤算子得到偶数构成的新RDD。Spark会将RDD中的每个元素传入该函数的参数中。方法二、采用下划线表达式作为参数传给map()算子。上述代码中,向算子map()传入了一个函数。为函数的参数名称,也可以使用其他字符,例如。若需要查看计算结果,则可使用行动算子。方法一、将匿名函数传给过滤算子。其实,利用神奇占位符。进行计算,并将结果以。

2023-05-25 10:46:58 386

原创 大数据学习笔记 3.1 掌握RDD的创建

查看RDD中的内容,保存到常量。注意:访问本地文件,必须加。前缀,否则系统会认为是访问。

2023-05-18 09:12:23 514

原创 大数据学习笔记 2.2、IDEA开发词频统计项目

单词计数是学习分布式计算的入门程序,有很多种实现方式,例如MapReduce;使用Spark提供的RDD算子可以更加轻松地实现单词计数。在IntelliJ IDEA中新建Maven管理的Spark项目,在该项目中使用Scala语言编写Spark的WordCount程序,可以本地运行Spark项目查看结果,也可以将项目打包提交到Spark集群(Standalone模式)中运行。

2023-05-15 08:58:02 389

原创 大数据学习笔记 2.1 spark开发环境的搭建

上述命令中的–master参数指定了Master节点的连接地址。该参数根据不同的Spark集群模式,其取值也有所不同,常用取值如下表所示。由于Spark仅仅是一种计算框架,不负责数据的存储和管理,因此,通常都会将Spark和Hadoop进行统一部署,由Hadoop中的。:Spark 3.3.2使用的Scala版本其实是2.12.15。、HBase等组件负责数据的存储管理,Spark负责数据计算。安装Spark集群前,需要安装Hadoop环境。计算1 + 2 + 3 + ……

2023-05-08 09:54:04 902

原创 大数据学习笔记 1.7 Scala类、对象、抽象类与特质

对象是类的具体实例,类是抽象的,不占用内存,而对象是具体的,占用存储空间。面向对象三大特性之一:封装(encapsulation) - 封装数据和操作Scala中一个简单的类定义是使用关键字class,类名首字母必须大写。类中的方法用关键字def定义创建包,在包里创建User类说明:在Scala里,如果一个类不写访问修饰符,那么默认访问级别为public,这与Java是不一样的。辅助构造器的方法名称为this每一个辅助构造器的方法体中必须首先调用其他已定义的构造器辅助构造器的参数。

2023-04-27 09:18:55 200 3

原创 大数据学习笔记 1.6 Scala数据结构

数组的静态初始化自动推断数组类型手动指定数据类型定义时指定数组长度,后赋值避免数组下标越界错误(数据溢出:Data Overflow)变长数组使用类进行定义定义一个变长Int类型数组arr,利用+=运算符、append方法添加一个数组元素(注意是追加元素),还可以利用appendAll方法添加一个数组(多个元素)定义一个元组student(自动推断)定义一个空的不可变集合set1(Nothing - 一无所有,Scala所有类的子类)定义一个非空的不可变集合set2。

2023-04-20 10:59:15 445 1

原创 大数据学习笔记1.5 Scala内建控制结构

Scala中继承了Java的异常机制,提供了程序中产生意外情况时处理的机制,抛出异常的过程和Java中基本一致,通过throw,一旦抛出可以当场捕获处理或接着向上抛,捕获异常是通过来实现的。

2023-04-06 09:48:49 72

原创 大数据学习笔记1.4 Scala运算符的运用

一、运算符等价于方法Scala中运算符即方法、方法即运算符。Scala中运算符其实是普通方法调用的另一种表现形式,运算符的使用其实就是隐含地调用对应的方法。

2023-03-19 14:26:50 58

原创 大数据学习笔记1.3 Scala集成开发环境

一、搭建Scala的IntelliJ IDEA开发环境IntelliJ IDEA(简称IDEA)是一款支持Java、Scala和Groovy等语言的开发工具,主要用于企业应用、移动应用和Web应用的开发。IDEA在业界被公认为是很好的Java开发工具,尤其是智能代码助手、代码自动提示、重构、J2EE支持等功能非常强大。

2023-02-27 00:00:00 105

原创 大数据学习笔记1.2 Scala变量与数据类型

Nothing没有对象,因此没有具体值,但是可以用来定义一个空类型,类似于Java中的标示性接口(如Serializable,用来标识该类可以进行序列化)。Null是所有引用类型(AnyRef)的子类,所以Null可以赋值给所有的引用类型,但不能赋值给值类型,这个和Java的语义是相同的。(1) String在java.lang包下,其余类型在scala包下,由于Scala会自动导入java.lang和scala包,因此这些类型可以在程序中直接使用。在Scala中,所有的值都有一个类型,包括数值和函数。

2023-02-26 12:24:49 114

原创 大数据学习笔记1.1 Scala的了解与环境搭建

Scala 是一门多范式(multi-paradigm)的编程语言,设计初衷是要集成面向对象编程和函数式编程的各种特性。Scala 运行在 Java 虚拟机上,并兼容现有的 Java 程序。Scala是Scalable Language的简写,是一门多范式的编程语言,由联邦理工学院洛桑(EPFL)的Martin Odersky于2001年基于Funnel的工作开始设计,设计初衷是要集成面向对象编程和函数式编程的各种特性。

2023-02-25 15:26:41 629 3

原创 大数据上课笔记之初识MapReduce

(5)Mapper组件会将每行内容,作为输入value,通过map()传给程序员,重点是获取输入value。(6)Mapper的第一个泛型类型对应的是输入key的类型,第二个泛型类型对应的输入value。(4)Mapper组件将每行的行首偏移量,作为输入key,通过map()传给程序员。(9)通过context进行结果的输出,以输出key和输出value的形式来输出。(10)输出key是由第三个泛型类型决定,输出value是由第四个泛型类型决定。(8)map()被调用几次,取决于文件的行数。

2022-12-15 20:53:41 266

原创 大数据上课笔记之使用Java API操作HDFS

HDFS Java API 位于“org.apache.hadoop.fs"包中,这些API能够支持的操作包含打开文件、读写文件、删除文件等。

2022-12-01 21:54:47 1986 1

原创 大数据上课笔记之HDFS的Shell操作

Shell在计算机科学中俗称“壳”,是提供给使用者使用界面的进行与系统交互的软件,通过接收用户输入的命令执行相应的操作,Shell分为图形界面Shell和命令行式Shell。文件系统(FS)Shell包含了各种的类Shell的命令,可以直接与Hadoop分布式文件系统以及其他文件系统进行交互。

2022-11-25 21:16:19 1296

原创 大数据上课笔记之HDFS的了解

​Hadoop分布式文件系统(HDFS)是指被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统(Distributed File System)。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。​

2022-11-18 08:59:10 290

原创 大数据上课笔记之Hadoop集群的启动和测试

Hadoop集群正常启动后,它默认开放了两个端口9870和8088,分别用于监控HDFS集群和YARN集群。通过UI界面可以方便地进行集群的管理和查看,只需要在本地操作系统的浏览器输入集群服务的IP和对应的端口号即可访问。

2022-11-09 20:16:20 3103

原创 大数据上课笔记之Hadoop完全分布模式的安装配置—下

adoop是Apache基金会面向全球开源的产品之一,任何用户都可以从Apache Hadoop官网下载使用。本次学习Hadoop,我们使用目前的最新版 -hadoop-3.3.4

2022-10-27 13:29:51 260

原创 大数据上课笔记之Hadoop完全分布模式的安装配置——上

在完全分布式模式下,Hadoop的守护进程分别运行在由多个主机搭建的集群上,不同节点担任不同的角色,在实际工作应用开发中,通常使用该模式构建企业级Hadoop系统

2022-10-20 20:42:03 896

原创 大数据上课笔记 1.3 Linux目录操作

Linux是一款安全性十分良好的操作系统。不仅有用户层面的安全性,还有目录操作层面的安全性,本次课我们要学习Linux的目录权限操作:读权限、写权限和执行权限。另外,常用目录操作也应该掌握,对于我们学习Hadoop奠定一个良好的Linux操作基础。

2022-10-13 22:00:27 711

原创 大数据上课笔记1.2 linux用户的操作

Linux是一个真实的、完整的多用户多任务操作系统,多用户多任务就是可以在系统上建立多个用户,而多个用户可以在同一时间内登录同一个系统执行各自不同的任务,而互不影响

2022-09-29 14:08:47 911 1

原创 大数据上课笔记1.1 VMmare Workstation软件的配置和虚拟机CentOS 7的安装

VMmare Workstation软件的配置和虚拟机的安装

2022-09-29 14:07:34 821

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除