集群搭建

最新推荐文章于 2022-09-11 17:20:37 发布

dhg982776031

最新推荐文章于 2022-09-11 17:20:37 发布

阅读量111

点赞数

分类专栏：大数据

本文链接：https://blog.csdn.net/dhg982776031/article/details/107726166

版权

大数据专栏收录该内容

1 篇文章 0 订阅

订阅专栏

喉咙、下巴、肩膀放松。内隔膜，哼鸣找位置。气息放腹部。

netstat -ntupl

tar -zxvf 包名 -C 解压到什么地方

systemctl restart network.service

/etc/

systemctl stop firewalld 临时关闭

systemctl disable firewalld永久关闭

systemctlstatus firewarlld 查看状态

配置ip追击名映射：/etc/hosts

hadoop伪分布式测试

完全分布式：重点 namenode secondarynamenode 的

Ha集群原理

解决问题：单点故障。

存在问题：如何解决元数据同步。（fsimage、edits日志文件）

namenode管理的元数据：1、文件元数据，如文件名 2、文件切割了多少个块 3、文件块存储位置信息，在哪些datanode上。

edits文件里面，操作namenode的时候，先记载到edits文件，然后才操作。

edits文件同步

journalnode服务，hadoop内置的服务。（不是第三方框架），用来维护edits日志文件，当发现journalnode发现文件变了，他会把数据同步到备用的namenode上（standby）。

fsimage文件同步

集群初始化之后，活动的fsimage文件拷贝到standyby的name节点上面。

如何主从namenode实现状态的切换？

使用第三方框架，zookeeper集群，他也是一个文件系统，只不过存储的是配置文件信息，而不是数据文件。

相当于在zookeeper里面创建了一个节点，通过节点来控制hadoop集群的主备状态。

zookeeper根据临时节点来控制活动的namenode，zkfc监听服务是属于hadoop的服务，他可以和zookeeper进行通信。

zookeeper保存着hadoop的配置信息。还负责投票选举（当你工作的namenode挂了之后，立马选出另一个主节点来替代他的工作），zkfc负责状态监听。

zkfc负责namenode和zookeeper的follower、leader之间的进程通信。保持心跳，发现异常，zookeeper根据hadoop的配置信息，告诉另外一个zkfc进程，让他来启动（通知）备用namenode。

leader follower

存在的问题：

namenode secondary

ssh-keygen +三次回车，在及目录下的 .ssh的隐藏目录。

ssh-copy-id -i id_rsa.pub node1

上传jdk，解压到 -C model目录

配置环境变量 vi /etc/profile 最下面 export JAVA_HOME= 那个路径 PATH=￥PATH:$JACA_HOME/bin

上传zookeeper，然后配置环境变量

第十二航把zkdata目录拿过去，最下面配置第八章的三行。作用是配置zookeeper节点之间的访问信息，一个2888代表节点之间内部访问，3888是zookeeper和外部的访问。server.1 .2 .3 相当于给zookeeper的每个节点加一个标记，在myid（需要vim）里面做。

再改配置文件

zkSErver.sh start.

上传 hadoop，然后解压，搞配置文件，path要配置两个，一个是bin，一个是sbin， hd如果tab能出现，就说明配置好了。

第一个修改hadoop-env，修改25行的环境变量。jdk的安装路径。

hadoop两套配置，一套默认配置，一套自己配置的把默认配置的给改了。

还改了一个hdfscluster（core-site），映射到哪儿里去了 hdfs-site

元数据存储的目录 hadop。tmp.dir 在hadoop下面的，不知道需要新建不，metadata目录

hdfs里面银蛇那个hdfscluster，第二个配置给namenode起别名 nn1\nn2 再指定进程之间的通信端口（rpc通信端口），在下面就是客户端访问namenode 的地址，50070. 第五个配置，journal启动。隔离机制，只能有一个namenode提供服务。再下来改这个/root/.ssh/id_rsa（用户目录下的。ssh） ,然后配置jouranl的保存文件的目录（保存的啥来着）。

dewho用户，其他用户访问hdfs集群就会报错在配置一个代理类。

HADOP 4.2.4 先配置基本的。hadoop课件。 yarn-env 26 配置jdk绝对路径。为什么需要javahome，因为hadoop是java开发的，所以需要这个jdk目录。

告诉hdfs集群，mapreduce程序运行在 yarn资源调度平台上

历史服务，查看运行过job的相关日志。

开启yarn高可用，

配置银蛇。声明yarn集群名称

把那个node1删除了，因为是高可用。

hdfssite 配自动故障迁移。

日志聚集，存储在hdfs，设置时间

然后找到yarn文档 1.7

现在做同步，然后启动。

scp /etc/profile文件到node2、node3

hdfs 的8.3.4

hadoop-daemon start journalnode

查看启动了没有

hdfs namenode -fromat 执行一次。否则生成元数据了，在hadoop的metadaaate下面有fsiamge文件，这是执行的时候生成的。

boottrap实现文件拷贝

hdfs格式化之前要启动journalnode，将那个监听开启起来，维护edits文件

hadoop-env 配置jdk

core-site hdfs-site yarn-env yarn-site mappred-env.sh mapred-site.xml

为什么要给自己发，因为一个节点要启动多个进程。

--------------------------------------------------------------------------------------------------------------------------------------------------------------

下午：

hdfs format 要删除 journaldate logs metadate 目录

clean 把别人以前搞得target目录给删除，然后自己在package一下。

netstat -ntupl

logback插件------可以将日志打印到指定的文件中。

lombok插件简化javabean的书写。（在javabean编译时，自动注入）

生成数据

---------------------------------------------------------------------------------------------

编辑脚本，找不到java——home ，所以要加一个source一下/etc/profile

2>&1 和 > 一起使用，错误输出和标准输出一样，也输出了。

行的末尾，

当你的命令没敲完，那你就可以加\ 那他就会换行，让你可以继续换行写，而不会提交给shell。

出现坏的解释器的时候，换行符和shell里面换行符有区别。

数据采集系统流程搭建

--------------------------------------------------

（1）flume：拦截器：数据清洗、分流标记

source：taildir 断点续传

+代表1到多，如app+，就代表app1d,app22等。

数据传到channel的时候就会有拦截器的操作。

需要把拦截器的jar包放到flume的lib目录下

file-flume-channel.comf 中间的channel 类配置那里要去reference 包名。

一条信息要加一个head，往head里面加一个属性和键值。属性一样，键值不一样用来分流。

multiplexing：这个分流，还有一个replcing 这个是复制发送。

kafaka启动的时候要指定你要加载的那个properties文件。

flume能将数据直接发送到不存在的topic，kafka他会自动创建，特点是topic只有一个分区

（3） flume 这是第二个flume

功能：上传数据到hdfs，配置：给hadoop配置支持lzo的压缩格式。

压缩格式 lzo:(支持切割)，需要索引

snappy：不支持切割

先把hdfs集群关了，修改配置文件。 hdfs第九章配置lzo。

dhg982776031

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
集群搭建

喉咙、下巴、肩膀放松。内隔膜，哼鸣找位置。气息放腹部。netstat -ntupltar -zxvf 包名 -C 解压到什么地方systemctl restart network.service/etc/systemctl stop firewalld 临时关闭systemctl disable firewalld永久关闭systemctlstatus firewarlld 查看状态配置ip追击名映射：/etc/hostshadoop伪分布式...
复制链接

扫一扫