自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(72)
  • 收藏
  • 关注

原创 如何搭建spark yarn模式集群的集群

也可以通过 Spark 的 Web 界面(通常在http://master-host:4040,如果是集群模式,可能在 YARN 的应用程序页面中找到 Spark 的 Web UI 链接)查看 Spark 应用程序的详细信息,如执行计划、任务进度等。配置 Hadoop 的核心配置文件,如core-site.xml、hdfs-site.xml、mapred-site.xml和yarn-site.xml,设置相关参数,如文件系统路径、资源分配等。下载 Spark 安装包,解压到集群各节点的指定目录。

2025-05-14 09:11:53 225

原创 shell命令大全

hadoop fs 具体命令 OR hdfs dfs 具体命令。1)启动Hadoop集群(方便后续的测试)通过 fs命令可以直接看到所有的命令。我们要启动集群,然后才能开始操作它。2)-help:输出这个命令参数。3)创建/sanguo文件夹。常用命令实操准备工作。

2025-05-14 09:09:51 180

原创 【HDFS的API操作】二创建Maven项目

如果程序执行没有错误,就会在HDFS中创建对应的文件目录,大家可以去服务器端查看。客户端去操作HDFS时,是有一个用户身份的。默认情况下,HDFS客户端API会从采用Windows默认用户访问HDFS,会报权限异常错误。所以在访问HDFS时,一定要配置用户。4. 创建包及对应的类。我们创建一个包为example.org,并在下面创建HdfsClient类。这一步中的hadoop-client要和我们前面客户端准备中下载的hadoop保持一致。2. 在pom.xml中补充相应的依赖坐标+日志添加。

2025-05-14 09:07:29 101

原创 【HDFS的API操作】(三)HDFS文件上传

【代码】【HDFS的API操作】(三)HDFS文件上传。

2025-05-14 09:05:27 106

原创 【HDFS的API操作】(四)动态设置副本份数(参数优先级)

参数优先级排序:(1)客户端代码中设置的值 >(2)然后是服务器的自定义配置(xxx-site.xml) >(4)服务器的默认配置(xxx-default.xml)默认情况下,上传的文件会被保存3份,如果需要的话,我们可以随时去修改这个设置参数。

2025-05-14 09:04:52 183

原创 【HDFS的API操作】(五)HDFS文件下载

【代码】【HDFS的API操作】(五)HDFS文件下载。

2025-05-14 09:03:20 109

原创 【HDFS的API操作】(六)HDFS文件更名和移动

【代码】【HDFS的API操作】(六)HDFS文件更名和移动。

2025-05-14 09:02:45 82

原创 【HDFS的API操作】(七)HDFS删除文件和目录

【代码】【HDFS的API操作】(七)HDFS删除文件和目录。

2025-05-14 09:02:05 424

原创 【HDFS的API操作】(八)HDFS文件详情查看

【代码】【HDFS的API操作】(八)HDFS文件详情查看。

2025-05-14 09:01:23 219

原创 【HDFS的API操作】(九)HDFS文件和文件夹判断

【代码】【HDFS的API操作】(九)HDFS文件和文件夹判断。

2025-05-14 09:00:23 276

原创 Mapreduce初使用

比如其中一台机器挂了,它可以把上面的计算任务转移到另外一个节点上运行,不至于这个任务运行失败,而且这个过程不需要人工参与,而完全是由Hadoop内部完成的。在这种情况下,MapReduce并不是不能做,而是使用后,每个MapReduce作业的输出结果都会写入到磁盘,会造成大量的磁盘IO,导致性能非常的低下。流式计算的输入数据是动态的,会一条一条的过来,是动态产生的,而MapReduce的输入数据集是静态的,不能动态变化。当你的计算资源不能得到满足的时候,你可以通过简单的增加机器来扩展它的计算能力。

2025-05-14 08:59:41 237

原创 spark数据压缩

压缩方式选择时重点考虑:压缩/解压缩速度、压缩率(压缩后存储大小)、压缩后是否可以支持切片。1)为了支持多种压缩/解压缩算法,Hadoop引入了编码/解码器。压缩位置选择压缩可以在MapReduce作用的任意阶段启用。压缩的优点:以减少磁盘IO、减少磁盘存储空间。缺点:不支持Split;压缩/解压速度一般;优点:压缩/解压速度比较快;缺点:不支持Split;(1)运算密集型的Job,少用压缩。(2)IO密集型的Job,多用压缩。压缩的缺点:增加CPU开销。优点:压缩和解压缩速度快;缺点:压缩/解压速度慢。

2025-05-14 08:58:29 142

原创 Spark基础介绍

在 Hadoop MapReduce 时代,数据处理主要基于磁盘,每次计算都需要频繁读写磁盘,这在面对需要多次迭代的算法,如机器学习中的梯度下降算法时,效率极其低下,导致大规模数据的迭代分析可能耗费数小时之久。而 Spark 创新性地采用基于内存计算的模式,使得数据在内存中能够被快速访问与处理,极大地缩短了计算时间,让大规模数据的迭代分析能够在秒级或分钟级完成,从而大幅提升了数据处理的效率,满足了诸如实时性要求较高的交互式数据处理等场景需求。实时计算:spark是基于MR的,而MR是离线的。

2025-05-14 08:54:12 226

原创 Spark集群搭建-Standalone

9.启动SPARK集群。进入到hadoop100机器,切换目录到/opt/module/spark-standalone/sbin下,运行命令 ./start-all.sh。进入/opt/module/把解压的内容重命名一下,mv spark-3.1.1-bin-hadoop3.2/ spark-standalone。注意,这里不要省略./,它表示的是当前目录下的start-all命令,如果省略了./,它就会先去环境变量PATH中指定的目录来找这个命令。

2025-05-14 08:50:38 162

原创 安装和使用Maven

默认情况下,settings.xml文件位于 Maven 安装目录的 conf文件夹中(例如 D:\Apache\maven\conf\settings.xml)。- 下载最新版本的 Maven 压缩包(`apache-maven-<version>-bin.zip`)。- 在“变量值”中输入 Maven 的安装路径,例如 `D:\Apache\maven`。- 在“环境变量”窗口中,找到并选择 `Path` 环境变量,然后点击“编辑”按钮。- 右键点击“此电脑”或“我的电脑”,选择“属性”。

2025-05-07 09:16:33 370

原创 Maven基本介绍

Maven 可以帮助你管理这些依赖项,你只需在项目的 `pom.xml` 文件中声明所需的依赖,Maven 就会自动从远程仓库下载这些依赖项,并将其添加到项目的类路径中。(1)项目构建:Maven 可以根据预定义的生命周期和插件,自动完成项目的编译、测试、打包、部署等一系列构建任务。POM 是 Maven 的核心概念之一,它是一个 XML 文件(通常命名为 `pom.xml`),用于描述项目的配置信息和依赖关系。- `groupId`:表示项目或组织的唯一标识符,通常采用反向域名的形式。

2025-05-07 09:15:20 113

原创 集群配置规划

这里一共有5个文件要配置:分别是core-site.xml,hdfs-site.xml,yarn-site.xml,配置/opt/module/hadoop-3.1.3/etc/hadoop。配置/opt/module/hadoop-3.1.3/etc/hadoop。-- 指定ResourceManager的地址-->-- 指定hadoop数据的存储目录 -->-- 指定NameNode的地址 -->-- 指定MR走shuffle -->-- nn web端访问地址-->-- 环境变量继承 -->

2025-05-07 09:09:28 635

原创 配置Hadoop集群-集群配置

(1)NameNode(nn):存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间,副本数,文件权限),以及每个文件的块列表和块所在的DataNode等。每个框都是一个进程,可能都运行在一台主机上,但是,属于不同的集群。Yet Another Resource Negotiator,简称YARN,另一种资源协调者,是Hadoop的资源管理器。对普通用户来说, Hadoop就是一个东西,一个整体,它能给我们提供无限的磁盘用来。但是,我们要把它搭建起起来,就必须要了解它的基本组成,知道它的内部分工。

2025-05-07 09:08:38 160

原创 配置Hadoop集群-免密登录

hosts文件中的主机名和ip地址是否与finalshell中的连接的主机名以及对应的虚拟机上的ip地址一致。(4)在hadoop100上,输入ssh hadoop101命令,看看是否可以免密登录?例如:我们先登录hadoop100,然后去登录到hadoop101。所以,对于hadoop100来说,它要生成公钥,并拷贝到hadoop100,接下来我们去具体看看.ssh相关的文件,以便更加深入的了解它的工作过程。例如: 在hadoop100上,也需要去设置针对它自己的免密登录。虚拟机的ip是否正确设置。

2025-05-07 09:07:33 620

原创 配置Hadoop集群环境-使用脚本命令实现集群文件同步

在一台机器上模拟出 Hadoop 分布式系统的各个组件,各个组件在逻辑上是分离的,但是都运行在同一台物理机器上,以此来模拟分布式环境。其中,第1项我们在之前克隆虚拟机的环节中已经完成了。现在我们来看看按照JDK和Hadoop并配置环境变量的工作。2. 把一台机器装好,把module 拷贝到其他的机器。这样就不需要省略了上传和解压的工作了。数据存储在HDFS,多台服务器工作,企业中大量使用。如果要拷贝的是文件夹,就把文件夹下的内容都拷贝。这台机器中已经安装了jdk和hadoop。要拷贝的文件路径/名称。

2025-05-07 09:04:18 278

原创 安装Hadoop并运行WordCount程序

(1)NameNode(nn):存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间,副本数,文件权限),以及每个文件的块列表和块所在的DataNode等。在Hadoop3.X中,hadoop一共有四个组成部分:MapReduce计算,Yarn资源调度,HDFS数据存储,Common辅助工具。(4)Container: 容器,相当于一台独立的服务器,里面封装了任务运行时所需要的资源:如内存、cpu、磁盘、网络等等。(1)ResourceManager(RM):整个集群资源(内存,CPU等)的老大。

2025-05-07 09:03:13 367

原创 克隆虚拟机组成集群

进入三台机器内部,分别使用ping主机名的方式来检查。例如进入hadoop100主机,使用 ping hadoop101来检查与hadoop101之间的连接是否正常。hosts文件中的主机名和ip地址是否与finalshell中的连接的主机名以及对应的虚拟的ip地址一致。好了,我们设置完成三台设备,下面我们来检查一下设置是否正确。虚拟机的ip是否正确设置。使用使用finalshell通过主机名来连接三台机器。本地控制面板,网络设置,vmnet8是否正常设置。本机的hosts文件是否正确修改。

2025-05-07 09:01:57 289

原创 配置hosts

映射到对应的 IP 地址,在 DNS(域名系统)解析之前,系统会先查询 hosts 文件来确定目标主机的 IP 地址。浏览器打开了host文件,发现了我们加入的这一行代码,然后,去访问127.0.0.1这个ip地址。为了方便后面我们更加便捷地访问这台主机,而不是通过ip地址,我们要重新给他取个名字。使用vi修改之后,:wq保存退出,我这里改成了hadoop100,大家可以自行修改。打开/etc/hostname这个文件,并修改其中的内容。hosts 文件是一个本地的文本文件,它的作用是将主机名。

2025-05-07 09:00:43 338

原创 VI编辑器

有强大的文本编辑能力。1. 如果这个文件不存在,此时就是新建文件,编辑器的左下角会提示:new file。(2)按下o:进入到编辑输入模式后,在当前行的后面添加一行空行(当前行的下一行)当我们通过VI命令第一次打开文件的时候,进入的就是命令模式。2. 如果文件已经存在,此时就打开这个文件,进入命令模式。从命令模式切换到底线命令模式,输入: 进入底线命令模式。它是linux的内置命令,所以还是以命令的方式来运行。来,我们实操一下,如何从命令模式进入输入模式?(3)在输入模式下,按下ESC退回到命令模式。

2025-05-07 08:58:36 223

原创 linux操作系统命令压缩和解压缩

因为在linux下,我们要去下载安装新的软件时就需要用到它:下载下来的软件大多都是.tar格式,而安装的过程就是解压缩。命令是:tar -cvf test.tar 1.txt 2.txt 3.txt。把多个文件压缩成一个压缩包文件。这里注意一下压缩包文件的后缀名是.tar。-c 建立一个压缩文件,把多个文件或者文件夹压缩到一个新的文件中。把1.txt,2.txt,3.txt压缩到test.tar文件。把一个压缩文件中的内容全部解压出来。指定解压文件夹的目录。tar命令是一个非常重要的命令。

2025-05-07 08:57:15 196

原创 linux操作系统命令复制和移动

复制和移动都分为文件和文件夹,具体的命令是cp和mv。说明:如果源文件和目标文件在同一个目录下,就是重命名,否则就是。复制一份得到file2.t x t。创建一个空的文件: touch file1.txt。创建一个空目录:mkdir dir1。格式: cp 源文件 目标文件。示例: 把file1.txt。格式:mv 源文件 目标文件。源文件夹 目标文件夹。1复制一份得到dir。

2025-05-07 08:56:15 197

原创 如何在idea中写spark程序

如果你需要将程序部署到 Spark 集群上运行,需要将项目打包成 JAR 文件。打开项目中的 pom.xml 文件,添加 Spark 相关依赖。以下是一个示例,包含了 Spark Core、Spark SQL 和 Spark Streaming 的依赖:<dependencies>在左侧面板选择 Maven 或 Gradle 作为项目构建工具(这里以 Maven 为例),同时选择合适的 JDK 版本,点击 Next。注意,在运行程序前,需要将 textFile 方法中的文件路径替换为你实际的文本文件路径。

2025-05-07 08:49:02 402

原创 虚拟机 IP 配置深度剖析】

• NAT 模式:这种模式下,虚拟机如同搭乘主机网络的便车,通过主机的网络连接到外部网络,共享主机的 IP 地址。正确配置虚拟机的 IP 地址,就如同为虚拟机铺设了一条畅通无阻的信息高速公路,能够确保虚拟机在网络中稳定运行,为后续的开发、测试、学习等工作提供坚实的网络基础,开启高效的虚拟机使用之旅。• 桥接模式:虚拟机仿佛与主机站在了同一起跑线,处于同一网络中,拥有自己独立的 IP 地址,如同网络中的一台真实设备,可被外网直接访问,方便进行远程连接等操作。3. 配置完成后,保存并退出文件。

2025-05-07 08:46:46 396

原创 【VMware 搭建 CentOS 虚拟机超详细指南】

建议优先选择 DVD 版本,它犹如一个装满宝藏的百宝箱,涵盖了更全面的软件包,为后续使用提供丰富资源。• 下载 VMware Workstation:前往 VMware 官方网站,依据你主机的操作系统版本,精准下载 VMware Workstation 安装包。记住,磁盘空间要足够充裕,就像为你的虚拟世界准备宽敞的房间,一般 20GB 左右能满足初始需求。6. 网络类型选择上,默认的 NAT 模式就像一个万能钥匙,适用于绝大多数场景,能满足虚拟机基本的网络通信需求。点击“下一步”,继续探索。

2025-05-07 08:45:41 253

原创 Hadoop 常用命令集总览

此命令将 /user/hadoop/sourcefile.txt 文件复制到 /user/hadoop/destinationfile.txt。该操作会将本地的 localfile.txt 文件上传至 HDFS 的 /user/hadoop/ 目录下。该命令将 /user/hadoop/testfile.txt 文件的所有者改为 hadoop,所属组改为 hadoopgroup。该命令执行后,将展示 /user/hadoop 目录下的所有文件和子目录的详细信息,包括文件权限、所有者、大小以及修改时间等。

2025-03-31 19:58:39 434

原创 虚拟机ip配置

虚拟机ip

2025-03-03 20:10:07 94

原创 vi常见命令

如何退出:执行完命令后按 Enter 键,或按 Esc 键回到命令模式。:% s/one/two/g:将全文中的所有 one 替换成 two。功能:执行如保存文件、退出vi、搜索替换文本、设置vi选项等命令。功能:用于执行移动光标、删除文本、复制粘贴、搜索替换等命令。:/字符串:在文本中从上至下搜索该字符串,n上至下 N下至上。字符串:在文本中从下至上搜索该字符串,n上至下 N下至上。o:在当前光标所在行的下一行开始新行并插入文本。如何进入:在命令模式下按 : 键。:wq 或 :x:保存并退出vi。

2025-03-03 19:50:17 154

原创 linux系统常用基本命令

arguments]表示有的命令有参数,有的命令可能没有参数。用括号在区分:d(rwx)(r-x)(r-x)文件类型(所有者权限)(文件所在组的权限)(其他人的权限);(1)第1段,drwxr-xr-x,表示文件属性,第1个字母d表示这个是个目录,如果是“-”表示文件。第3位表示是否有执行的权限,有执行的权限,显示“x”,没有执行的权限,显示“-”。第1位表示是否有读的权限,有读的权限,显示“r”,没有读的权限,显示“-”。第2位表示是否有写的权限,有写的权限,显示“w”,没有写的权限,显示“-”。

2025-02-25 10:51:36 425

原创 如何安装VM和centos

打开VMware虚拟机,「文件 → 新建虚拟机 → 自定义 → 下一步」。按方向键选择第一项 Install CentOS 7,按回车Enter键。

2025-02-25 10:43:01 397

原创 求List(1,2,3,4,6,8)中的偶数之和

【代码】求List(1,2,3,4,6,8)中的偶数之和。

2024-12-31 17:49:30 114

原创 输出1,2,3,4,5输出对应英文

【代码】输出1,2,3,4,5输出对应英文。

2024-12-31 17:47:03 108

原创 求1-100的奇数和

【代码】求1-100的奇数和。

2024-12-31 17:45:43 102

原创 求1-100的和

【代码】求1-100的和。

2024-12-31 17:44:04 101

原创 编写程序求n!在下述代码中:定义了一个名为factorial的函数,它接收一个Int类型的参数n。通过递归的方式来计算阶乘,如果n小于等于1,按照阶乘的定义直接返回1,否则返回n乘以n - 1的阶

【代码】编写程序求n!在下述代码中:定义了一个名为factorial的函数,它接收一个Int类型的参数n。通过递归的方式来计算阶乘,如果n小于等于1,按照阶乘的定义直接返回1,否则返回n乘以n - 1的阶。

2024-12-31 17:40:26 100

原创 Scala泛型应用场景

例如,List[Int]表示一个包含整数的列表,List[String]表示一个包含字符串的列表。通过泛型,集合类可以存储任意类型的元素,而不会丢失类型信息。Scala中的泛型(Generics)是一种强大的工具,允许开发者编写可重用的代码,同时保持类型安全。: 在定义类时,可以使用泛型来创建通用的数据结构。例如,定义一个通用的键值对类,可以存储任意类型的键和值。: 泛型可以用于定义接受任意类型参数的函数。例如,定义一个通用的排序函数,可以对任何类型的列表进行排序。

2024-12-12 08:45:49 500

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除