- 博客(72)
- 收藏
- 关注
原创 如何搭建spark yarn模式集群的集群
也可以通过 Spark 的 Web 界面(通常在http://master-host:4040,如果是集群模式,可能在 YARN 的应用程序页面中找到 Spark 的 Web UI 链接)查看 Spark 应用程序的详细信息,如执行计划、任务进度等。配置 Hadoop 的核心配置文件,如core-site.xml、hdfs-site.xml、mapred-site.xml和yarn-site.xml,设置相关参数,如文件系统路径、资源分配等。下载 Spark 安装包,解压到集群各节点的指定目录。
2025-05-14 09:11:53
225
原创 shell命令大全
hadoop fs 具体命令 OR hdfs dfs 具体命令。1)启动Hadoop集群(方便后续的测试)通过 fs命令可以直接看到所有的命令。我们要启动集群,然后才能开始操作它。2)-help:输出这个命令参数。3)创建/sanguo文件夹。常用命令实操准备工作。
2025-05-14 09:09:51
180
原创 【HDFS的API操作】二创建Maven项目
如果程序执行没有错误,就会在HDFS中创建对应的文件目录,大家可以去服务器端查看。客户端去操作HDFS时,是有一个用户身份的。默认情况下,HDFS客户端API会从采用Windows默认用户访问HDFS,会报权限异常错误。所以在访问HDFS时,一定要配置用户。4. 创建包及对应的类。我们创建一个包为example.org,并在下面创建HdfsClient类。这一步中的hadoop-client要和我们前面客户端准备中下载的hadoop保持一致。2. 在pom.xml中补充相应的依赖坐标+日志添加。
2025-05-14 09:07:29
101
原创 【HDFS的API操作】(四)动态设置副本份数(参数优先级)
参数优先级排序:(1)客户端代码中设置的值 >(2)然后是服务器的自定义配置(xxx-site.xml) >(4)服务器的默认配置(xxx-default.xml)默认情况下,上传的文件会被保存3份,如果需要的话,我们可以随时去修改这个设置参数。
2025-05-14 09:04:52
183
原创 Mapreduce初使用
比如其中一台机器挂了,它可以把上面的计算任务转移到另外一个节点上运行,不至于这个任务运行失败,而且这个过程不需要人工参与,而完全是由Hadoop内部完成的。在这种情况下,MapReduce并不是不能做,而是使用后,每个MapReduce作业的输出结果都会写入到磁盘,会造成大量的磁盘IO,导致性能非常的低下。流式计算的输入数据是动态的,会一条一条的过来,是动态产生的,而MapReduce的输入数据集是静态的,不能动态变化。当你的计算资源不能得到满足的时候,你可以通过简单的增加机器来扩展它的计算能力。
2025-05-14 08:59:41
237
原创 spark数据压缩
压缩方式选择时重点考虑:压缩/解压缩速度、压缩率(压缩后存储大小)、压缩后是否可以支持切片。1)为了支持多种压缩/解压缩算法,Hadoop引入了编码/解码器。压缩位置选择压缩可以在MapReduce作用的任意阶段启用。压缩的优点:以减少磁盘IO、减少磁盘存储空间。缺点:不支持Split;压缩/解压速度一般;优点:压缩/解压速度比较快;缺点:不支持Split;(1)运算密集型的Job,少用压缩。(2)IO密集型的Job,多用压缩。压缩的缺点:增加CPU开销。优点:压缩和解压缩速度快;缺点:压缩/解压速度慢。
2025-05-14 08:58:29
142
原创 Spark基础介绍
在 Hadoop MapReduce 时代,数据处理主要基于磁盘,每次计算都需要频繁读写磁盘,这在面对需要多次迭代的算法,如机器学习中的梯度下降算法时,效率极其低下,导致大规模数据的迭代分析可能耗费数小时之久。而 Spark 创新性地采用基于内存计算的模式,使得数据在内存中能够被快速访问与处理,极大地缩短了计算时间,让大规模数据的迭代分析能够在秒级或分钟级完成,从而大幅提升了数据处理的效率,满足了诸如实时性要求较高的交互式数据处理等场景需求。实时计算:spark是基于MR的,而MR是离线的。
2025-05-14 08:54:12
226
原创 Spark集群搭建-Standalone
9.启动SPARK集群。进入到hadoop100机器,切换目录到/opt/module/spark-standalone/sbin下,运行命令 ./start-all.sh。进入/opt/module/把解压的内容重命名一下,mv spark-3.1.1-bin-hadoop3.2/ spark-standalone。注意,这里不要省略./,它表示的是当前目录下的start-all命令,如果省略了./,它就会先去环境变量PATH中指定的目录来找这个命令。
2025-05-14 08:50:38
162
原创 安装和使用Maven
默认情况下,settings.xml文件位于 Maven 安装目录的 conf文件夹中(例如 D:\Apache\maven\conf\settings.xml)。- 下载最新版本的 Maven 压缩包(`apache-maven-<version>-bin.zip`)。- 在“变量值”中输入 Maven 的安装路径,例如 `D:\Apache\maven`。- 在“环境变量”窗口中,找到并选择 `Path` 环境变量,然后点击“编辑”按钮。- 右键点击“此电脑”或“我的电脑”,选择“属性”。
2025-05-07 09:16:33
370
原创 Maven基本介绍
Maven 可以帮助你管理这些依赖项,你只需在项目的 `pom.xml` 文件中声明所需的依赖,Maven 就会自动从远程仓库下载这些依赖项,并将其添加到项目的类路径中。(1)项目构建:Maven 可以根据预定义的生命周期和插件,自动完成项目的编译、测试、打包、部署等一系列构建任务。POM 是 Maven 的核心概念之一,它是一个 XML 文件(通常命名为 `pom.xml`),用于描述项目的配置信息和依赖关系。- `groupId`:表示项目或组织的唯一标识符,通常采用反向域名的形式。
2025-05-07 09:15:20
113
原创 集群配置规划
这里一共有5个文件要配置:分别是core-site.xml,hdfs-site.xml,yarn-site.xml,配置/opt/module/hadoop-3.1.3/etc/hadoop。配置/opt/module/hadoop-3.1.3/etc/hadoop。-- 指定ResourceManager的地址-->-- 指定hadoop数据的存储目录 -->-- 指定NameNode的地址 -->-- 指定MR走shuffle -->-- nn web端访问地址-->-- 环境变量继承 -->
2025-05-07 09:09:28
635
原创 配置Hadoop集群-集群配置
(1)NameNode(nn):存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间,副本数,文件权限),以及每个文件的块列表和块所在的DataNode等。每个框都是一个进程,可能都运行在一台主机上,但是,属于不同的集群。Yet Another Resource Negotiator,简称YARN,另一种资源协调者,是Hadoop的资源管理器。对普通用户来说, Hadoop就是一个东西,一个整体,它能给我们提供无限的磁盘用来。但是,我们要把它搭建起起来,就必须要了解它的基本组成,知道它的内部分工。
2025-05-07 09:08:38
160
原创 配置Hadoop集群-免密登录
hosts文件中的主机名和ip地址是否与finalshell中的连接的主机名以及对应的虚拟机上的ip地址一致。(4)在hadoop100上,输入ssh hadoop101命令,看看是否可以免密登录?例如:我们先登录hadoop100,然后去登录到hadoop101。所以,对于hadoop100来说,它要生成公钥,并拷贝到hadoop100,接下来我们去具体看看.ssh相关的文件,以便更加深入的了解它的工作过程。例如: 在hadoop100上,也需要去设置针对它自己的免密登录。虚拟机的ip是否正确设置。
2025-05-07 09:07:33
620
原创 配置Hadoop集群环境-使用脚本命令实现集群文件同步
在一台机器上模拟出 Hadoop 分布式系统的各个组件,各个组件在逻辑上是分离的,但是都运行在同一台物理机器上,以此来模拟分布式环境。其中,第1项我们在之前克隆虚拟机的环节中已经完成了。现在我们来看看按照JDK和Hadoop并配置环境变量的工作。2. 把一台机器装好,把module 拷贝到其他的机器。这样就不需要省略了上传和解压的工作了。数据存储在HDFS,多台服务器工作,企业中大量使用。如果要拷贝的是文件夹,就把文件夹下的内容都拷贝。这台机器中已经安装了jdk和hadoop。要拷贝的文件路径/名称。
2025-05-07 09:04:18
278
原创 安装Hadoop并运行WordCount程序
(1)NameNode(nn):存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间,副本数,文件权限),以及每个文件的块列表和块所在的DataNode等。在Hadoop3.X中,hadoop一共有四个组成部分:MapReduce计算,Yarn资源调度,HDFS数据存储,Common辅助工具。(4)Container: 容器,相当于一台独立的服务器,里面封装了任务运行时所需要的资源:如内存、cpu、磁盘、网络等等。(1)ResourceManager(RM):整个集群资源(内存,CPU等)的老大。
2025-05-07 09:03:13
367
原创 克隆虚拟机组成集群
进入三台机器内部,分别使用ping主机名的方式来检查。例如进入hadoop100主机,使用 ping hadoop101来检查与hadoop101之间的连接是否正常。hosts文件中的主机名和ip地址是否与finalshell中的连接的主机名以及对应的虚拟的ip地址一致。好了,我们设置完成三台设备,下面我们来检查一下设置是否正确。虚拟机的ip是否正确设置。使用使用finalshell通过主机名来连接三台机器。本地控制面板,网络设置,vmnet8是否正常设置。本机的hosts文件是否正确修改。
2025-05-07 09:01:57
289
原创 配置hosts
映射到对应的 IP 地址,在 DNS(域名系统)解析之前,系统会先查询 hosts 文件来确定目标主机的 IP 地址。浏览器打开了host文件,发现了我们加入的这一行代码,然后,去访问127.0.0.1这个ip地址。为了方便后面我们更加便捷地访问这台主机,而不是通过ip地址,我们要重新给他取个名字。使用vi修改之后,:wq保存退出,我这里改成了hadoop100,大家可以自行修改。打开/etc/hostname这个文件,并修改其中的内容。hosts 文件是一个本地的文本文件,它的作用是将主机名。
2025-05-07 09:00:43
338
原创 VI编辑器
有强大的文本编辑能力。1. 如果这个文件不存在,此时就是新建文件,编辑器的左下角会提示:new file。(2)按下o:进入到编辑输入模式后,在当前行的后面添加一行空行(当前行的下一行)当我们通过VI命令第一次打开文件的时候,进入的就是命令模式。2. 如果文件已经存在,此时就打开这个文件,进入命令模式。从命令模式切换到底线命令模式,输入: 进入底线命令模式。它是linux的内置命令,所以还是以命令的方式来运行。来,我们实操一下,如何从命令模式进入输入模式?(3)在输入模式下,按下ESC退回到命令模式。
2025-05-07 08:58:36
223
原创 linux操作系统命令压缩和解压缩
因为在linux下,我们要去下载安装新的软件时就需要用到它:下载下来的软件大多都是.tar格式,而安装的过程就是解压缩。命令是:tar -cvf test.tar 1.txt 2.txt 3.txt。把多个文件压缩成一个压缩包文件。这里注意一下压缩包文件的后缀名是.tar。-c 建立一个压缩文件,把多个文件或者文件夹压缩到一个新的文件中。把1.txt,2.txt,3.txt压缩到test.tar文件。把一个压缩文件中的内容全部解压出来。指定解压文件夹的目录。tar命令是一个非常重要的命令。
2025-05-07 08:57:15
196
原创 linux操作系统命令复制和移动
复制和移动都分为文件和文件夹,具体的命令是cp和mv。说明:如果源文件和目标文件在同一个目录下,就是重命名,否则就是。复制一份得到file2.t x t。创建一个空的文件: touch file1.txt。创建一个空目录:mkdir dir1。格式: cp 源文件 目标文件。示例: 把file1.txt。格式:mv 源文件 目标文件。源文件夹 目标文件夹。1复制一份得到dir。
2025-05-07 08:56:15
197
原创 如何在idea中写spark程序
如果你需要将程序部署到 Spark 集群上运行,需要将项目打包成 JAR 文件。打开项目中的 pom.xml 文件,添加 Spark 相关依赖。以下是一个示例,包含了 Spark Core、Spark SQL 和 Spark Streaming 的依赖:<dependencies>在左侧面板选择 Maven 或 Gradle 作为项目构建工具(这里以 Maven 为例),同时选择合适的 JDK 版本,点击 Next。注意,在运行程序前,需要将 textFile 方法中的文件路径替换为你实际的文本文件路径。
2025-05-07 08:49:02
402
原创 虚拟机 IP 配置深度剖析】
• NAT 模式:这种模式下,虚拟机如同搭乘主机网络的便车,通过主机的网络连接到外部网络,共享主机的 IP 地址。正确配置虚拟机的 IP 地址,就如同为虚拟机铺设了一条畅通无阻的信息高速公路,能够确保虚拟机在网络中稳定运行,为后续的开发、测试、学习等工作提供坚实的网络基础,开启高效的虚拟机使用之旅。• 桥接模式:虚拟机仿佛与主机站在了同一起跑线,处于同一网络中,拥有自己独立的 IP 地址,如同网络中的一台真实设备,可被外网直接访问,方便进行远程连接等操作。3. 配置完成后,保存并退出文件。
2025-05-07 08:46:46
396
原创 【VMware 搭建 CentOS 虚拟机超详细指南】
建议优先选择 DVD 版本,它犹如一个装满宝藏的百宝箱,涵盖了更全面的软件包,为后续使用提供丰富资源。• 下载 VMware Workstation:前往 VMware 官方网站,依据你主机的操作系统版本,精准下载 VMware Workstation 安装包。记住,磁盘空间要足够充裕,就像为你的虚拟世界准备宽敞的房间,一般 20GB 左右能满足初始需求。6. 网络类型选择上,默认的 NAT 模式就像一个万能钥匙,适用于绝大多数场景,能满足虚拟机基本的网络通信需求。点击“下一步”,继续探索。
2025-05-07 08:45:41
253
原创 Hadoop 常用命令集总览
此命令将 /user/hadoop/sourcefile.txt 文件复制到 /user/hadoop/destinationfile.txt。该操作会将本地的 localfile.txt 文件上传至 HDFS 的 /user/hadoop/ 目录下。该命令将 /user/hadoop/testfile.txt 文件的所有者改为 hadoop,所属组改为 hadoopgroup。该命令执行后,将展示 /user/hadoop 目录下的所有文件和子目录的详细信息,包括文件权限、所有者、大小以及修改时间等。
2025-03-31 19:58:39
434
原创 vi常见命令
如何退出:执行完命令后按 Enter 键,或按 Esc 键回到命令模式。:% s/one/two/g:将全文中的所有 one 替换成 two。功能:执行如保存文件、退出vi、搜索替换文本、设置vi选项等命令。功能:用于执行移动光标、删除文本、复制粘贴、搜索替换等命令。:/字符串:在文本中从上至下搜索该字符串,n上至下 N下至上。字符串:在文本中从下至上搜索该字符串,n上至下 N下至上。o:在当前光标所在行的下一行开始新行并插入文本。如何进入:在命令模式下按 : 键。:wq 或 :x:保存并退出vi。
2025-03-03 19:50:17
154
原创 linux系统常用基本命令
arguments]表示有的命令有参数,有的命令可能没有参数。用括号在区分:d(rwx)(r-x)(r-x)文件类型(所有者权限)(文件所在组的权限)(其他人的权限);(1)第1段,drwxr-xr-x,表示文件属性,第1个字母d表示这个是个目录,如果是“-”表示文件。第3位表示是否有执行的权限,有执行的权限,显示“x”,没有执行的权限,显示“-”。第1位表示是否有读的权限,有读的权限,显示“r”,没有读的权限,显示“-”。第2位表示是否有写的权限,有写的权限,显示“w”,没有写的权限,显示“-”。
2025-02-25 10:51:36
425
原创 如何安装VM和centos
打开VMware虚拟机,「文件 → 新建虚拟机 → 自定义 → 下一步」。按方向键选择第一项 Install CentOS 7,按回车Enter键。
2025-02-25 10:43:01
397
原创 编写程序求n!在下述代码中:定义了一个名为factorial的函数,它接收一个Int类型的参数n。通过递归的方式来计算阶乘,如果n小于等于1,按照阶乘的定义直接返回1,否则返回n乘以n - 1的阶
【代码】编写程序求n!在下述代码中:定义了一个名为factorial的函数,它接收一个Int类型的参数n。通过递归的方式来计算阶乘,如果n小于等于1,按照阶乘的定义直接返回1,否则返回n乘以n - 1的阶。
2024-12-31 17:40:26
100
原创 Scala泛型应用场景
例如,List[Int]表示一个包含整数的列表,List[String]表示一个包含字符串的列表。通过泛型,集合类可以存储任意类型的元素,而不会丢失类型信息。Scala中的泛型(Generics)是一种强大的工具,允许开发者编写可重用的代码,同时保持类型安全。: 在定义类时,可以使用泛型来创建通用的数据结构。例如,定义一个通用的键值对类,可以存储任意类型的键和值。: 泛型可以用于定义接受任意类型参数的函数。例如,定义一个通用的排序函数,可以对任何类型的列表进行排序。
2024-12-12 08:45:49
500
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人