慧慧不会yhm-CSDN博客

原创如何搭建spark yarn模式集群的集群

也可以通过 Spark 的 Web 界面（通常在http://master-host:4040，如果是集群模式，可能在 YARN 的应用程序页面中找到 Spark 的 Web UI 链接）查看 Spark 应用程序的详细信息，如执行计划、任务进度等。配置 Hadoop 的核心配置文件，如core-site.xml、hdfs-site.xml、mapred-site.xml和yarn-site.xml，设置相关参数，如文件系统路径、资源分配等。下载 Spark 安装包，解压到集群各节点的指定目录。

2025-05-14 09:11:53 225

原创 shell命令大全

hadoop fs 具体命令 OR hdfs dfs 具体命令。1）启动Hadoop集群（方便后续的测试）通过 fs命令可以直接看到所有的命令。我们要启动集群，然后才能开始操作它。2）-help：输出这个命令参数。3）创建/sanguo文件夹。常用命令实操准备工作。

2025-05-14 09:09:51 180

原创【HDFS的API操作】二创建Maven项目

如果程序执行没有错误，就会在HDFS中创建对应的文件目录，大家可以去服务器端查看。客户端去操作HDFS时，是有一个用户身份的。默认情况下，HDFS客户端API会从采用Windows默认用户访问HDFS，会报权限异常错误。所以在访问HDFS时，一定要配置用户。4. 创建包及对应的类。我们创建一个包为example.org,并在下面创建HdfsClient类。这一步中的hadoop-client要和我们前面客户端准备中下载的hadoop保持一致。2. 在pom.xml中补充相应的依赖坐标+日志添加。

2025-05-14 09:07:29 101

原创【HDFS的API操作】（三）HDFS文件上传

【代码】【HDFS的API操作】（三）HDFS文件上传。

2025-05-14 09:05:27 106

原创【HDFS的API操作】（四）动态设置副本份数（参数优先级)

参数优先级排序：（1）客户端代码中设置的值 >（2）然后是服务器的自定义配置（xxx-site.xml） >（4）服务器的默认配置（xxx-default.xml）默认情况下，上传的文件会被保存3份，如果需要的话，我们可以随时去修改这个设置参数。

2025-05-14 09:04:52 183

原创【HDFS的API操作】（五）HDFS文件下载

【代码】【HDFS的API操作】（五）HDFS文件下载。

2025-05-14 09:03:20 109

原创【HDFS的API操作】（六）HDFS文件更名和移动

【代码】【HDFS的API操作】（六）HDFS文件更名和移动。

2025-05-14 09:02:45 82

原创【HDFS的API操作】（七）HDFS删除文件和目录

【代码】【HDFS的API操作】（七）HDFS删除文件和目录。

2025-05-14 09:02:05 424

原创【HDFS的API操作】（八）HDFS文件详情查看

【代码】【HDFS的API操作】（八）HDFS文件详情查看。

2025-05-14 09:01:23 219

原创【HDFS的API操作】（九）HDFS文件和文件夹判断

【代码】【HDFS的API操作】（九）HDFS文件和文件夹判断。

2025-05-14 09:00:23 276

原创 Mapreduce初使用

比如其中一台机器挂了，它可以把上面的计算任务转移到另外一个节点上运行，不至于这个任务运行失败，而且这个过程不需要人工参与，而完全是由Hadoop内部完成的。在这种情况下，MapReduce并不是不能做，而是使用后，每个MapReduce作业的输出结果都会写入到磁盘，会造成大量的磁盘IO，导致性能非常的低下。流式计算的输入数据是动态的，会一条一条的过来，是动态产生的，而MapReduce的输入数据集是静态的，不能动态变化。当你的计算资源不能得到满足的时候，你可以通过简单的增加机器来扩展它的计算能力。

2025-05-14 08:59:41 237

原创 spark数据压缩

压缩方式选择时重点考虑：压缩/解压缩速度、压缩率（压缩后存储大小）、压缩后是否可以支持切片。1）为了支持多种压缩/解压缩算法，Hadoop引入了编码/解码器。压缩位置选择压缩可以在MapReduce作用的任意阶段启用。压缩的优点：以减少磁盘IO、减少磁盘存储空间。缺点：不支持Split；压缩/解压速度一般；优点：压缩/解压速度比较快；缺点：不支持Split；（1）运算密集型的Job，少用压缩。（2）IO密集型的Job，多用压缩。压缩的缺点：增加CPU开销。优点：压缩和解压缩速度快；缺点：压缩/解压速度慢。

2025-05-14 08:58:29 142

原创 Spark基础介绍

在 Hadoop MapReduce 时代，数据处理主要基于磁盘，每次计算都需要频繁读写磁盘，这在面对需要多次迭代的算法，如机器学习中的梯度下降算法时，效率极其低下，导致大规模数据的迭代分析可能耗费数小时之久。而 Spark 创新性地采用基于内存计算的模式，使得数据在内存中能够被快速访问与处理，极大地缩短了计算时间，让大规模数据的迭代分析能够在秒级或分钟级完成，从而大幅提升了数据处理的效率，满足了诸如实时性要求较高的交互式数据处理等场景需求。实时计算：spark是基于MR的，而MR是离线的。

2025-05-14 08:54:12 226

原创 Spark集群搭建-Standalone

9.启动SPARK集群。进入到hadoop100机器，切换目录到/opt/module/spark-standalone/sbin下，运行命令 ./start-all.sh。进入/opt/module/把解压的内容重命名一下，mv spark-3.1.1-bin-hadoop3.2/ spark-standalone。注意，这里不要省略./,它表示的是当前目录下的start-all命令，如果省略了./，它就会先去环境变量PATH中指定的目录来找这个命令。

2025-05-14 08:50:38 162

原创安装和使用Maven

默认情况下，settings.xml文件位于 Maven 安装目录的 conf文件夹中（例如 D:\Apache\maven\conf\settings.xml）。- 下载最新版本的 Maven 压缩包（`apache-maven-<version>-bin.zip`）。- 在“变量值”中输入 Maven 的安装路径，例如 `D:\Apache\maven`。- 在“环境变量”窗口中，找到并选择 `Path` 环境变量，然后点击“编辑”按钮。- 右键点击“此电脑”或“我的电脑”，选择“属性”。

2025-05-07 09:16:33 370

原创 Maven基本介绍

Maven 可以帮助你管理这些依赖项，你只需在项目的 `pom.xml` 文件中声明所需的依赖，Maven 就会自动从远程仓库下载这些依赖项，并将其添加到项目的类路径中。（1）项目构建：Maven 可以根据预定义的生命周期和插件，自动完成项目的编译、测试、打包、部署等一系列构建任务。POM 是 Maven 的核心概念之一，它是一个 XML 文件（通常命名为 `pom.xml`），用于描述项目的配置信息和依赖关系。- `groupId`：表示项目或组织的唯一标识符，通常采用反向域名的形式。

2025-05-07 09:15:20 113

原创集群配置规划

这里一共有5个文件要配置：分别是core-site.xml,hdfs-site.xml,yarn-site.xml,配置/opt/module/hadoop-3.1.3/etc/hadoop。配置/opt/module/hadoop-3.1.3/etc/hadoop。-- 指定ResourceManager的地址-->-- 指定hadoop数据的存储目录 -->-- 指定NameNode的地址 -->-- 指定MR走shuffle -->-- nn web端访问地址-->-- 环境变量继承 -->

2025-05-07 09:09:28 635

原创配置Hadoop集群-集群配置

（1）NameNode(nn)：存储文件的元数据，如文件名，文件目录结构，文件属性（生成时间，副本数，文件权限），以及每个文件的块列表和块所在的DataNode等。每个框都是一个进程，可能都运行在一台主机上，但是，属于不同的集群。Yet Another Resource Negotiator，简称YARN，另一种资源协调者，是Hadoop的资源管理器。对普通用户来说， Hadoop就是一个东西，一个整体，它能给我们提供无限的磁盘用来。但是，我们要把它搭建起起来，就必须要了解它的基本组成，知道它的内部分工。

2025-05-07 09:08:38 160

原创配置Hadoop集群-免密登录

hosts文件中的主机名和ip地址是否与finalshell中的连接的主机名以及对应的虚拟机上的ip地址一致。（4）在hadoop100上，输入ssh hadoop101命令，看看是否可以免密登录？例如：我们先登录hadoop100，然后去登录到hadoop101。所以，对于hadoop100来说，它要生成公钥，并拷贝到hadoop100,接下来我们去具体看看.ssh相关的文件，以便更加深入的了解它的工作过程。例如：在hadoop100上，也需要去设置针对它自己的免密登录。虚拟机的ip是否正确设置。

2025-05-07 09:07:33 620

原创配置Hadoop集群环境-使用脚本命令实现集群文件同步

在一台机器上模拟出 Hadoop 分布式系统的各个组件，各个组件在逻辑上是分离的，但是都运行在同一台物理机器上，以此来模拟分布式环境。其中，第1项我们在之前克隆虚拟机的环节中已经完成了。现在我们来看看按照JDK和Hadoop并配置环境变量的工作。2. 把一台机器装好，把module 拷贝到其他的机器。这样就不需要省略了上传和解压的工作了。数据存储在HDFS，多台服务器工作，企业中大量使用。如果要拷贝的是文件夹，就把文件夹下的内容都拷贝。这台机器中已经安装了jdk和hadoop。要拷贝的文件路径/名称。

2025-05-07 09:04:18 278

原创安装Hadoop并运行WordCount程序

（1）NameNode(nn)：存储文件的元数据，如文件名，文件目录结构，文件属性（生成时间，副本数，文件权限），以及每个文件的块列表和块所在的DataNode等。在Hadoop3.X中，hadoop一共有四个组成部分：MapReduce计算，Yarn资源调度，HDFS数据存储，Common辅助工具。（4）Container: 容器，相当于一台独立的服务器，里面封装了任务运行时所需要的资源：如内存、cpu、磁盘、网络等等。（1）ResourceManager(RM):整个集群资源（内存，CPU等）的老大。

2025-05-07 09:03:13 367

原创克隆虚拟机组成集群

进入三台机器内部，分别使用ping主机名的方式来检查。例如进入hadoop100主机，使用 ping hadoop101来检查与hadoop101之间的连接是否正常。hosts文件中的主机名和ip地址是否与finalshell中的连接的主机名以及对应的虚拟的ip地址一致。好了，我们设置完成三台设备，下面我们来检查一下设置是否正确。虚拟机的ip是否正确设置。使用使用finalshell通过主机名来连接三台机器。本地控制面板，网络设置，vmnet8是否正常设置。本机的hosts文件是否正确修改。

2025-05-07 09:01:57 289

原创配置hosts

映射到对应的 IP 地址，在 DNS（域名系统）解析之前，系统会先查询 hosts 文件来确定目标主机的 IP 地址。浏览器打开了host文件，发现了我们加入的这一行代码，然后，去访问127.0.0.1这个ip地址。为了方便后面我们更加便捷地访问这台主机，而不是通过ip地址，我们要重新给他取个名字。使用vi修改之后，:wq保存退出，我这里改成了hadoop100，大家可以自行修改。打开/etc/hostname这个文件，并修改其中的内容。hosts 文件是一个本地的文本文件，它的作用是将主机名。

2025-05-07 09:00:43 338

原创 VI编辑器

有强大的文本编辑能力。1. 如果这个文件不存在，此时就是新建文件，编辑器的左下角会提示：new file。（2）按下o：进入到编辑输入模式后，在当前行的后面添加一行空行（当前行的下一行）当我们通过VI命令第一次打开文件的时候，进入的就是命令模式。2. 如果文件已经存在，此时就打开这个文件，进入命令模式。从命令模式切换到底线命令模式，输入: 进入底线命令模式。它是linux的内置命令，所以还是以命令的方式来运行。来，我们实操一下，如何从命令模式进入输入模式？（3）在输入模式下，按下ESC退回到命令模式。

2025-05-07 08:58:36 223

原创 linux操作系统命令压缩和解压缩

因为在linux下，我们要去下载安装新的软件时就需要用到它：下载下来的软件大多都是.tar格式，而安装的过程就是解压缩。命令是：tar -cvf test.tar 1.txt 2.txt 3.txt。把多个文件压缩成一个压缩包文件。这里注意一下压缩包文件的后缀名是.tar。-c 建立一个压缩文件，把多个文件或者文件夹压缩到一个新的文件中。把1.txt,2.txt,3.txt压缩到test.tar文件。把一个压缩文件中的内容全部解压出来。指定解压文件夹的目录。tar命令是一个非常重要的命令。

2025-05-07 08:57:15 196

原创 linux操作系统命令复制和移动

复制和移动都分为文件和文件夹，具体的命令是cp和mv。说明：如果源文件和目标文件在同一个目录下，就是重命名，否则就是。复制一份得到file2.t x t。创建一个空的文件： touch file1.txt。创建一个空目录：mkdir dir1。格式： cp 源文件目标文件。示例：把file1.txt。格式：mv 源文件目标文件。源文件夹目标文件夹。1复制一份得到dir。

2025-05-07 08:56:15 197

原创如何在idea中写spark程序

如果你需要将程序部署到 Spark 集群上运行，需要将项目打包成 JAR 文件。打开项目中的 pom.xml 文件，添加 Spark 相关依赖。以下是一个示例，包含了 Spark Core、Spark SQL 和 Spark Streaming 的依赖：<dependencies>在左侧面板选择 Maven 或 Gradle 作为项目构建工具（这里以 Maven 为例），同时选择合适的 JDK 版本，点击 Next。注意，在运行程序前，需要将 textFile 方法中的文件路径替换为你实际的文本文件路径。

2025-05-07 08:49:02 402

原创虚拟机 IP 配置深度剖析】

• NAT 模式：这种模式下，虚拟机如同搭乘主机网络的便车，通过主机的网络连接到外部网络，共享主机的 IP 地址。正确配置虚拟机的 IP 地址，就如同为虚拟机铺设了一条畅通无阻的信息高速公路，能够确保虚拟机在网络中稳定运行，为后续的开发、测试、学习等工作提供坚实的网络基础，开启高效的虚拟机使用之旅。• 桥接模式：虚拟机仿佛与主机站在了同一起跑线，处于同一网络中，拥有自己独立的 IP 地址，如同网络中的一台真实设备，可被外网直接访问，方便进行远程连接等操作。3. 配置完成后，保存并退出文件。

2025-05-07 08:46:46 396

原创【VMware 搭建 CentOS 虚拟机超详细指南】

建议优先选择 DVD 版本，它犹如一个装满宝藏的百宝箱，涵盖了更全面的软件包，为后续使用提供丰富资源。• 下载 VMware Workstation：前往 VMware 官方网站，依据你主机的操作系统版本，精准下载 VMware Workstation 安装包。记住，磁盘空间要足够充裕，就像为你的虚拟世界准备宽敞的房间，一般 20GB 左右能满足初始需求。6. 网络类型选择上，默认的 NAT 模式就像一个万能钥匙，适用于绝大多数场景，能满足虚拟机基本的网络通信需求。点击“下一步”，继续探索。

2025-05-07 08:45:41 253

原创 Hadoop 常用命令集总览

此命令将 /user/hadoop/sourcefile.txt 文件复制到 /user/hadoop/destinationfile.txt。该操作会将本地的 localfile.txt 文件上传至 HDFS 的 /user/hadoop/ 目录下。该命令将 /user/hadoop/testfile.txt 文件的所有者改为 hadoop，所属组改为 hadoopgroup。该命令执行后，将展示 /user/hadoop 目录下的所有文件和子目录的详细信息，包括文件权限、所有者、大小以及修改时间等。

2025-03-31 19:58:39 434

原创虚拟机ip配置

虚拟机ip

2025-03-03 20:10:07 94

原创 vi常见命令

如何退出：执行完命令后按 Enter 键，或按 Esc 键回到命令模式。:% s/one/two/g：将全文中的所有 one 替换成 two。功能：执行如保存文件、退出vi、搜索替换文本、设置vi选项等命令。功能：用于执行移动光标、删除文本、复制粘贴、搜索替换等命令。:/字符串：在文本中从上至下搜索该字符串，n上至下 N下至上。字符串：在文本中从下至上搜索该字符串，n上至下 N下至上。o：在当前光标所在行的下一行开始新行并插入文本。如何进入：在命令模式下按 : 键。:wq 或 :x：保存并退出vi。

2025-03-03 19:50:17 154

原创 linux系统常用基本命令

arguments]表示有的命令有参数，有的命令可能没有参数。用括号在区分：d（rwx）（r-x）（r-x）文件类型（所有者权限）（文件所在组的权限）（其他人的权限）；（1）第1段，drwxr-xr-x，表示文件属性，第1个字母d表示这个是个目录，如果是“-”表示文件。第3位表示是否有执行的权限，有执行的权限，显示“x”，没有执行的权限，显示“-”。第1位表示是否有读的权限，有读的权限，显示“r”，没有读的权限，显示“-”。第2位表示是否有写的权限，有写的权限，显示“w”，没有写的权限，显示“-”。

2025-02-25 10:51:36 425

空空如也

空空如也