m0_73693938-CSDN博客

原创 Spark大数据处理讲课笔记4.1 Spark SQL概述、数据帧与数据集

Spark SQL是Spark用来处理结构化数据的一个模块，它提供了一个编程抽象结构叫做DataFrame的数据模型（即带有Schema信息的RDD），Spark SQL作为分布式SQL查询引擎，让用户可以通过SQL、DataFrames API和Datasets API三种方式实现对结构化数据的处理DataFrame是Spark SQL提供的一个编程抽象，与RDD类似，也是一个分布式的数据集合，但与RDD不同，DataFrame的数据都被组织到有名字的列中，就像关系型数据库中的表一样。

2023-05-22 09:46:57 145

转载 Spark大数据处理讲课笔记4.2 Spark SQL数据源 - 基本操作

在实际开发中，每当完成一个功能接口或业务方法的编写后，通常都会借助单元测试验证该功能是否正确。Spring Boot对项目的单元测试提供了很好的支持，在使用时，需要提前在项目的pom.xml文件中添加spring-boot-starter-test测试依赖启动器，可以通过相关注解实现单元测试。

2023-05-22 08:22:35 170

原创 Spark大数据处理讲课笔记3.5 RDD持久化机制

若RDD3没有持久化保存，则每次对RDD3进行操作时都需要从textFile()开始计算，将文件数据转化为RDD1，再转化为RDD2，最终才得到RDD3。上述操作说明，调用RDD的persist()方法只是将该RDD标记为持久化，当执行行动操作时才会对标记为持久化的RDD进行持久化操作。// 第二次行动算子，直接利用rdd2的持久化数据进行操作，无须从头进行计算。// 第一次行动算子，对标记为持久化的RDD进行不同级别的持久化操作。// 将rdd2持久化到内存，溢出的数据持久化到磁盘。

2023-05-11 11:27:07 184

原创 Spark大数据处理讲课笔记3.8 Spark RDD典型案例

setAppName("CalculateSumAvg") // 设置应用名称。.setMaster("local[*]") // 设置主节点位置（本地调试）// 将rdd1映射成rdd2，计算总分与平均分。// 基于Spark配置对象创建Spark容器。// 对rdd按键归约得到rdd1，计算总分。// 遍历lines，填充二元组成绩列表。// 基于二元组成绩列表创建RDD。// 在控制台输出rdd2的内容。// 读取成绩文件，生成RDD。// 创建Spark配置对象。// 定义二元组成绩列表。

2023-05-11 11:18:54 93

原创 Spark大数据处理讲课笔记3.6 RDD容错机制

会单独启动一个任务将标记为检查点的RDD的数据写入文件系统，如果RDD的数据已经持久化到了内存，将直接从内存中读取数据，然后进行写入，提高数据写入效率，否则需要重复计算一遍RDD的数据。val result = lines.map((_, broadcastVar)) // 算子携带广播变量。val rdd = sc.makeRDD(Array(1, 2, 3, 4, 5)) // 创建RDD。rdd.foreach(x => myacc.add(x)) // 在Executor里向累加器添加值。

2023-05-11 10:28:06 101

转载 Spark大数据处理讲课笔记3.4 理解RDD依赖

（三）reduceByKey()算子。

2023-05-08 09:32:02 94

原创 Spark大数据处理讲课笔记3.3 掌握RDD分区

在有些情况下，使用Spark自带的分区器满足不了特定的需求。例如，某学生有以下3科成绩数据：科目成绩chinese98math88english96现需要将每一科成绩单独分配到一个分区中，然后将3科成绩输出到HDFS的指定目录（每个分区对应一个结果文件），此时就需要对数据进行自定义分区。

2023-05-08 09:13:17 97

原创 Spark大数据处理讲课笔记3.2 掌握RDD算子

val scores = List(("张钦林", 78), ("张钦林", 90), ("张钦林", 76),("陈燕文", 95), ("陈燕文", 88), ("陈燕文", 98),("卢志刚", 78), ("卢志刚", 80), ("卢志刚", 60))("张钦林", 78), ("张钦林", 90), ("张钦林", 76),("陈燕文", 95), ("陈燕文", 88), ("陈燕文", 98),("卢志刚", 78), ("卢志刚", 80), ("卢志刚", 60)

2023-05-04 09:27:21 198

原创 Spark大数据处理讲课笔记3.1 掌握RDD的创建

中的文件分块，不同的块存储在不同的节点上；而并行计算类似于使用MapReduce读取HDFS中的数据并进行Map和Reduce操作。执行命令：val rdd = sc.textFile("hdfs://master:9000/park/test.txt")执行命令：val rdd = sc.textFile("file:///home/test.txt")想法是活的，语法是死的，重要的是得先有想法，然后用语法去实现。（既可以读取本地文件，也可以读取HDFS文件）（二）从外部存储创建RDD。

2023-04-17 09:43:35 45

原创 Spark大数据处理讲课笔记2.4 IDEA开发词频统计项目

flatMap(_.split(" ")) // 扁平化映射，得到单词数组。.flatMap(_.split(" ")) // 扁平化映射，得到单词数组。.map((_, 1)) // 针对每个单词得到二元组（word, 1).map((_, 1)) // 针对每个单词得到二元组(word, 1).sortBy(_._2, false) // 按照单词个数降序排列。.sortBy(_._2, false) // 按照单词个数降序排列。// 停止Spark容器，结束任务。

2023-04-13 11:33:07 103

转载 Spark大数据处理讲课笔记2.1 初识Spark

（一）Spark的组件。

2023-04-02 16:52:48 132

原创大数据处理讲课笔记1.7 掌握Scala类、对象、抽象类与特质

def speak(): Unit = println("我叫" + name + "," + gender + ",今年" + age + "岁了~")def speak(): Unit = println("我叫" + name + "," + gender + ",今年" + age + "岁了~")println("我叫" + name + ",今年" + Student.age + "岁了~")bird.setName("菲菲") //直接访问私有属性: bird.name = "菲菲"

2023-03-30 09:00:16 73

原创大数据处理学习笔记1.6 Scala数据结构

（1）定义数组时初始化数据自动推断数组类型手动指定数据类型先定义，后赋值避免数组下标越界错误（数据溢出： Daflowta Overflow）定义一个元组student定义一个空的不可变集合set1（Nothing - 一无所有，Scala所有类的子类）定义一个非空的不可变集合set2（Any - 包罗万象，Scala所有类的父类）注意：在创建集合时，4.5是第二个元素，但是创建完之后的集合里，4.5成为了最后一个元素，这正好说明了集合的无序性。

2023-03-23 11:56:59 271 1

原创大数据处理学习笔记1.5 掌握Scala内建控制结构

Scala提供的控制结构并不算多，因为在中，可以自己开发出各种功能的控制结构，所以Scala提供的原生控制结构仅仅够用为止。

2023-03-06 08:36:18 99

原创大数据处理学习笔记1.3 使用Scala集成开发环境

（二）安装Scala插件。

2023-02-24 11:25:15 84

原创数据处理学习笔记1.4 掌握Scala运算符

val x6 = str.toUpperCase // 方法调用时如果不需要传入任何参数，小括号可以省略。val x4 = str substring (2, 4) // 如果参数有多个，需要用小括号包起来。val x7 = str toUpperCase // 这种写法，如果没有参数，则括号不用写。，前缀运算符如同中缀运算符一样，也是方法调用的另一种方式，不同的是，方法名要在符号前加上前缀。Scala和Java运算符基本相同，不同之处在于比较运算符。

2023-02-23 10:10:49 63

原创 2023 1.2 Scala变量与数据类型

定义变量需要初始化，否则会报错。注意：Java里可以先声明变量，然后再赋值定义变量时可以不指定数据类型，系统会根据初始化值自动推断变量的类型注意：Java声明变量必须指定类型。

2023-02-20 15:57:59 115

原创 2023年1.1 搭建Scala开发环境

（一）Scala概述Scala是Scalable Language的简写，是一门多范式的编程语言，由联邦理工学院洛桑（EPFL）的Martin Odersky于2001年基于Funnel的工作开始设计，设计初衷是要集成面向对象编程和函数式编程的各种特性。Scala是一种将面向对象和函数式编程结合在一起的高级语言，旨在以简洁、优雅和类型安全的方式表达通用编程模式。Scala功能强大，不仅可以编写简单脚本，还可以构建大型系统。

2023-02-16 11:11:34 225

原创初探MapReduce

回顾项目四HDFS相关的知识，由于MapReduce是Hadoop系统的另一个核心组件，它是一种可用于大数据并行处理的计算模型、框架和平台，主要解决海量数据的计算，是目前分布式计算模型中应用较为广泛的一种。15个字母，2个空格，1个转义字符，总共18个字符，因此，第三行起始位置在整个文件的偏移量就是19 + 16 + 18 + 18 = 72。15个字母，2个空格，1个转义字符，总共18个字符，因此，第三行起始位置在整个文件的偏移量就是19 + 16 + 18 = 54。--hadoop客户端-->

2023-02-13 14:34:02 61

原创 4.4 使用Java API操作HDFS

在/ied01目录里确实创建了一个0字节的hadoop.txt文件，有点类似于Hadoop Shell里执行hdfs dfs -touchz /ied01/hadoop.txt命令的效果，但是有一点不同，hdfs dfs -touchz命令重复执行，不会失败，只是不断改变该文件的时间戳。// 删除路径对象指向的目录或文件。System.out.println(type + "[" + path + "]删除成功！System.out.println(type + "[" + path + "]删除失败！

2022-12-02 10:04:16 969

转载 HDFS的shell操作

一、导入新课上一节中，主要讲解了HDFS的架构和原理，使得学生更深入的了解HDFS的底层架构以及读写数据的原理，那我们该如何访问HDFS呢？HDFS提供了多种数据访问方式，而Shell命令行方式是最简单的，也是许多开发者最容易掌握的方式，本节将针对HDFS的Shell操作进行详细讲解。二、新课讲解（一）HDFS的Shell介绍Shell在计算机科学中俗称“壳”，是提供给使用者使用界面的进行与系统交互的软件，通过接收用户输入的命令执行相应的操作，Shell分为图形界面Shell和命令行式Shell。

2022-11-18 09:51:16 1413

转载 HDFS架构和原理

二、新课讲解（一）HDFS存储架构HDFS是一个分布式的文件系统，相比普通的文件系统来说更加复杂，因此在学习HDFS的操作之前有必要先来学习一下HDFS的存储架构。HDFS采用了主从（Master/Slave）结构模型，一个HDFS集群包括一个名称节点（NameNode）和若干个数据节点（DataNode）（如下图所示）。名称节点作为中心服务器，负责管理文件系统的命名空间及客户端对文件的访问。集群中的数据节点一般是一个节点运行一个数据节点进程，负责处理文件系统客户端的读/写请求，在名称节点的统一调度下进行

2022-11-11 10:03:17 508

原创 HDFS基本概念

回顾项目三Hadoop集群相关的知识，由于Hadoop的核心是HDFS和MapReduce。其中，HDFS是解二）HDFS的基本概念HDFS（Hadoop Distributed Filesystem）是一个易于扩展的分布式文件系统，运行在成百上千台低成本的机器上。它与现有的分布式文件系统有许多相似之处，都是用来存储数据的系统工具，而区别于HDFS具有高度容错能力，旨在部署在低成本机器上。HDFS主要用于对海量文件信息进行存储和管理，也就是解决大数据文件（如TB乃至PB级）的存储问题。

2022-11-11 09:06:14 126

原创 Hadoop集群测试

执行命令：hadoop jar ./hadoop-mapreduce-examples-3.3.4.jar wordcount /BigData/test.txt /wc_result。单击导航条上的【Datanodes】，查看数据节点信息。文件，增加hadoop集群主机名与IP地址的映射。在Hadoop WebUI界面查看刚才创建的目录。利用Hadoop WebUI查看文件是否上传成功。单击【Download】，下载结果文件到本地。利用HDFS命令查看文件是否上传成功。，查看应用的运行详情。

2022-11-09 10:50:48 2401

原创 Hadoop集群配置

三个数据节点（datanode）——小弟，在master、slave1与slave2虚拟机上。--关闭虚拟内存检测，在虚拟机环境中不做配置会报错-->（2）编辑Hadoop核心配置文件 - core-site.xml。--用来指定hadoop运行时产生文件的存放目录-->（3）编辑HDFS配置文件 - hdfs-site.xml。--配置资源管理器：集群master-->--配置节点管理器上运行的附加服务-->）在master、slave1与slave2虚拟机上。--配置MR资源调度框架YARN-->

2022-11-09 10:47:11 796

原创 Hadoop部署与在OpenStack私有云上安装配置虚拟机

登录大数据实训云能熟练创建网络能熟练创建路由能熟练添加接口能熟练创建端口能熟练添加安全组规则能基于镜像创建实例能利用FinalShell连接虚拟机能熟练配置虚拟机开源云计算平台进一步拓展了云计算领域，推动了云计算技术的发展。

2022-10-20 20:22:10 723 1

原创【进行用户与用户组操作】

n回答：创建mike用户时，设置了用户id - 1010，然后创建alice时，没有设置用户id，那就自动编号1011，最后创建smith时，也没有设置用户id，那也是自动编号1012。每个用户都有一个用户组，系统可以对一个用户组中的所有用户进行集中管理。增加用户账号就是在/etc/passwd文件中为新用户增加一条记录，同时更新其他系统文件/etc/shadow，/etc/group等。创建用户mike，主目录为/home/mike，用户id为1010，密码为12345，注释my workmate。

2022-10-06 15:42:01 731 1

原创【Linux用户操作】

用户ID在1000以前都是系统内置用户，包括不能登录的用户.head -3表示显示前3条记录。liu用户的用户ID是1000，不是系统内置用户。1.查看全部用户（执行命令为cat/etc/passwd）5.切换到liu用户（普通用户），再查看环境变量。由root用户切换到普通用户，不用输入密码(2.切换到root用户（执行命令为。4.查看环境变量（执行命令为env）新增用户的ID必须大于1000。2.系统内置用户与新增用户（1.创建root用户连接。3.退出用户。

2022-09-29 20:08:36 366

转载 Linux目录操作

例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。提示：以下是本篇文章正文内容，下面案例可供参考提示：这里对文章进行总结：例如：以上就是今天要讲的内容，本文仅仅简单介绍了pandas的使用，而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。

2022-09-29 13:26:01 78

m0_73693938的博客