Hadoop集群安装部署
文章平均质量分 83
centos,jdk,hadoop,zookeeper,kafka,flume,mysql,hive,spark
在下区区俗物
爱学习的俗物!
展开
-
CentOS7安装教程
16、选择镜像文件所在的路径,点击关闭17、点击完成18、启动虚拟机19、选择第一个(点击进去后鼠标出不来,点击Ctrl+Alt键可以解放鼠标),然后回车20、中间如果有镜像检查,按Esc键跳过检查,等待一会后,出现如下界面,语言选择中文中的简体中文,点击继续21、点击软件选择22、选择。原创 2024-02-05 08:37:28 · 958 阅读 · 0 评论 -
CentOS7集群环境搭建(3台)
当安装完虚拟机之后,默认的ip分配方案为DHCP,每一次开机时的ip都是有可能不同的,这样就会导致每次远程连接都需要查看ip地址.设置为静态ip后, 当前虚拟机的ip地址就不会在发生改变,,后期配置集群相关的内容时首要的要求就是ip必须为静态, 否则由于无法得到一个准确的ip地址,集群也是构建不了的。2、分别修改三台虚拟机的名称为hadoop102、hadoop103、hadoop104,保存退出:Esc=>Shift + 冒号:=>wq。6、输入虚拟机名称,选择存储位置,点击完成。原创 2024-02-05 08:46:44 · 1384 阅读 · 0 评论 -
CentOS7集群配置免密登录
3、可以看到在家目录下面的.ssh目录中生成了两个文件,id_rsa(私钥)、id_rsa.pub(公钥)5、复制hadoop102机器的认证到其他机器上,在hadoop102上执行以下命令。4、将公钥复制到同一台机器hadoop102,7、配置成功后登录三台机器便不再需要输入密码了。文件中输入以下内容:IP hostname。至此三台虚拟机的免密登录配置完成~以下命令,执行命令后直接三次回车。6、测试是否可以免密登录。原创 2024-02-06 08:26:00 · 872 阅读 · 2 评论 -
集群分发脚本xsync
rsync是 "remote synchronization" 的简写,这个工具主要用于远程和本地系统之间同步文件和目录,优化了数据传输过程,只传输变化的部分。它被广泛应用于备份操作、镜像制作以及其他需要文件或目录同步的场景。rsync在功能丰富且高效的同时,也保证了传输安全性。原创 2024-02-06 08:30:18 · 727 阅读 · 0 评论 -
CentOS7集群安装JDK1.8
3、分别再Hadoop102、Hadoop103、Hadoop104执行刷新配置文件。3、解压jdk的tar包到/opt/moudle目录。4、切换到/opt/moudle查看解压后的文件。2、将jdk上传到software文件夹里面。1、在虚拟机hadoop102新建两个目录。4、验证jdk是否安装成功。到此集群安装jdk完成!5、分发解压好的JDK。原创 2024-02-07 08:49:41 · 761 阅读 · 0 评论 -
CentOS7搭建Hadoop集群
10、部署完成可以通过start-all.sh和stop-all.sh控制Hadoop-HA所有节点的启停。-- 配置该user(superUser)允许通过代理访问的主机节点 -->-- 把多个NameNode的地址组装成一个集群mycluster -->-- 配置该user(superUser)允许通过代理用户所属组 -->-- 配置该user(superUser)允许通过代理的用户-->-- 指定hadoop运行时产生文件的存储目录 -->-- 配置HDFS网页登录使用的静态用户为user -->原创 2024-02-07 09:05:42 · 3462 阅读 · 1 评论 -
Zookeeper集群搭建(3台)
1、重命名/opt/module/zookeeper/conf目录下的zoo_sample.cfg为zoo.cfg。3、同步/opt/module/zookeeper目录内容到hadoop103、hadoop104。2、在/opt/module/zookeeper/zkData目录下创建一个myid的文件。1、在/opt/module/zookeeper/目录下创建zkData。1、解压Zookeeper安装包到/opt/module/目录下。切换到/opt/module目录下。原创 2024-02-08 08:32:35 · 1247 阅读 · 0 评论 -
Hadoop集群所有进程查看脚本
1、在/home/atguigu/bin目录下创建脚本xcall.sh。相当于在三台节点同时运行jps。2、赋予文件运行权限。原创 2024-02-08 08:30:19 · 299 阅读 · 0 评论 -
Kafka集群安装与部署
(2)依次在hadoop102、hadoop103、hadoop104节点上启动Kafka。(1)依次在hadoop102、hadoop103、hadoop104节点上停止Kafka。(1)在/etc/profile.d/my_env.sh文件中增加kafka环境变量配置。(1)先启动Zookeeper集群,然后启动Kafka。(3)分发环境变量文件到其他节点,并source。集群就没有办法再获取停止进程的信息,只能手动杀死。(2)刷新一下环境变量。(每个节点单独配置)(每个节点单独配置)原创 2024-02-10 10:06:53 · 1486 阅读 · 0 评论 -
Flume安装部署
(1)将apache-flume-1.10.1-bin.tar.gz上传到linux的/opt/software目录下。(2)解压apache-flume-1.10.1-bin.tar.gz到/opt/moudle/目录下。(3)修改apache-flume-1.10.1-bin的名称为flume。(4)修改conf目录下的log4j2.xml配置文件,配置日志文件路径。(5)分发flume(当前位置/opt/moudle/)# 引入控制台输出,方便学习查看日志。原创 2024-02-09 09:25:11 · 1390 阅读 · 0 评论 -
Linux上MySQL安装部署
(4)执行/opt/software/mysql/目录下install_mysql.sh。(1)卸载MySQL依赖,虽然机器上没有装MySQL,但是这一步。输入mysql -uroot -p123456。(3)切换到hadoop102的root用户。#更改密码级别并重启MySQL。将安装包上传到mysql目录。我一直是用root用户操作的。# 安装并启动MySQL。# 更改MySQL配置。(2)下载依赖并安装。原创 2024-02-09 09:23:41 · 589 阅读 · 0 评论 -
Hive安装部署
4、解决日志Jar包(改成备用)冲突,进入/opt/moudle/hive/lib目录。--配置Hive保存元数据信息所需的 MySQL URL地址-->1、解压hive-3.1.3.tar.gz到/opt/module/目录下面。在$HIVE_HOME/conf目录下新建hive-site.xml。2、修改hive-3.1.3-bin.tar.gz的名称为hive。--配置Hive连接MySQL的驱动全类名-->--配置Hive连接MySQL的用户名 -->--配置Hive连接MySQL的密码 -->原创 2024-02-10 10:08:52 · 1091 阅读 · 0 评论 -
Hive on Spark配置
说明2:Hive任务最终由Spark来执行,Spark任务资源分配由Yarn来调度,该任务有可能被分配到集群的任何一个节点。所以需要将Spark的依赖上传到HDFS集群路径,这样集群中任何一个节点都能获取到。说明1:采用Spark纯净版jar包,不包含hadoop和hive相关依赖,能避免依赖冲突。1、解压spark-3.3.1-bin-without-hadoop.tgz。2、修改spark-env.sh配置文件。--Spark依赖位置(注意:端口号。--Hive执行引擎-->source 使其生效。原创 2024-02-14 21:21:11 · 1843 阅读 · 1 评论 -
DolphinScheduler安装与配置
Apache DolphinScheduler是一个分布式、易扩展的可视化DAG工作流任务调度平台。致力于解决数据处理流程中错综复杂的依赖关系,使调度系统在数据处理流程中开箱即用。DolphinScheduler的主要角色如下:采用分布式无中心设计理念,MasterServer主要负责 DAG 任务切分、任务提交、任务监控,并同时监听其它MasterServer和WorkerServer的健康状态。也采用分布式无中心设计理念,WorkerServer主要负责任务的执行和提供日志服务。原创 2024-02-14 21:36:48 · 2141 阅读 · 0 评论