喉咙、下巴、肩膀放松。 内隔膜, 哼鸣找位置。气息放腹部。
netstat -ntupl
tar -zxvf 包名 -C 解压到什么地方
systemctl restart network.service
/etc/
systemctl stop firewalld 临时关闭
systemctl disable firewalld永久关闭
systemctlstatus firewarlld 查看状态
配置ip追击名映射:/etc/hosts
hadoop伪分布式 测试
完全分布式:重点 namenode secondarynamenode 的
Ha集群原理
解决问题:单点故障。
存在问题:如何解决元数据同步。(fsimage、edits日志文件)
namenode管理的元数据:1、文件元数据,如文件名 2、文件切割了多少个块 3、文件块存储位置信息,在哪些datanode上。
edits文件里面,操作namenode的时候,先记载到edits文件,然后才操作。
edits文件同步
journalnode服务,hadoop内置的服务。(不是第三方框架),用来维护edits日志文件,当发现journalnode发现文件变了,他会把数据同步到备用的namenode上(standby)。
fsimage文件同步
集群初始化之后,活动的fsimage文件拷贝到standyby的name节点上面。
如何主从namenode实现状态的切换?
使用第三方框架,zookeeper集群,他也是一个文件系统,只不过存储的是配置文件信息,而不是数据文件。
相当于在zookeeper里面创建了一个节点,通过节点来控制hadoop集群的主备状态。
zookeeper根据临时节点来控制活动的namenode,zkfc监听服务是属于hadoop的服务,他可以和zookeeper进行通信。
zookeeper保存着hadoop的配置信息。 还负责投票选举(当你工作的namenode挂了之后,立马选出另一个主节点来替代他的工作),zkfc负责状态监听。
zkfc负责namenode和zookeeper的follower、leader之间的进程通信。保持心跳,发现异常,zookeeper根据hadoop的配置信息,告诉另外一个zkfc进程,让他来启动(通知)备用namenode。
leader follower
存在的问题:
namenode secondary
ssh-keygen +三次回车, 在 及目录下的 .ssh的隐藏目录。
ssh-copy-id -i id_rsa.pub node1
上传jdk,解压到 -C model目录
配置环境变量 vi /etc/profile 最下面 export JAVA_HOME= 那个路径 PATH=¥PATH:$JACA_HOME/bin
上传zookeeper,然后配置环境变量
第十二航 把zkdata目录拿过去,最下面配置第八章的三行。作用是配置zookeeper节点之间的访问信息,一个2888代表节点之间内部访问,3888是zookeeper和外部的访问。server.1 .2 .3 相当于给zookeeper的每个节点加一个标记,在myid(需要vim)里面做。
再改配置文件
zkSErver.sh start.
上传 hadoop,然后解压,搞配置文件,path要配置两个,一个是bin,一个是sbin, hd如果tab能出现,就说明配置好了。
第一个修改hadoop-env,修改25行的环境变量。jdk的安装路径。
hadoop两套配置,一套默认配置,一套自己配置的把默认配置的给改了。
还改了一个hdfscluster(core-site),映射到哪儿里去了 hdfs-site
元数据存储的目录 hadop。tmp.dir 在hadoop下面的,不知道需要新建不,metadata目录
hdfs里面银蛇那个hdfscluster,第二个配置 给namenode起别名 nn1\nn2 再指定进程之间的 通信端口(rpc通信端口),在下面就是客户端访问namenode 的地址,50070. 第五个配置,journal启动。 隔离机制,只能有一个namenode提供服务 。再下来改这个/root/.ssh/id_rsa(用户目录下的。ssh) ,然后配置jouranl的保存文件的目录(保存的啥来着)。
dewho用户,其他用户访问hdfs集群就会报错 在配置一个代理类。
HADOP 4.2.4 先配置基本的。hadoop课件。 yarn-env 26 配置jdk绝对路径。为什么需要javahome,因为hadoop是java开发的,所以需要这个jdk目录。
告诉hdfs集群,mapreduce程序运行在 yarn资源调度平台上
历史服务,查看运行过job的相关日志。
开启yarn高可用,
配置银蛇。 声明yarn集群名称
把那个node1删除了,因为是高可用。
hdfssite 配自动故障迁移。
日志聚集,存储在hdfs,设置时间
然后找到yarn文档 1.7
现在做同步,然后启动。
scp /etc/profile文件到node2、node3
hdfs 的8.3.4
hadoop-daemon start journalnode
查看启动了没有
hdfs namenode -fromat 执行一次。否则生成元数据了,在hadoop的metadaaate下面有fsiamge文件,这是执行的时候生成的。
boottrap实现文件拷贝
hdfs格式化之前要启动journalnode,将那个监听开启起来,维护edits文件
hadoop-env 配置jdk
core-site hdfs-site yarn-env yarn-site mappred-env.sh mapred-site.xml
为什么要给自己发,因为一个节点要启动多个进程。
--------------------------------------------------------------------------------------------------------------------------------------------------------------
下午:
hdfs format 要删除 journaldate logs metadate 目录
clean 把别人以前搞得target目录给删除,然后自己在package一下。
netstat -ntupl
logback插件------可以将日志打印到指定的文件中。
lombok插件简化javabean的书写。(在javabean编译时,自动注入)
生成数据
---------------------------------------------------------------------------------------------
编辑脚本,找不到java——home ,所以要加一个source一下/etc/profile
2>&1 和 > 一起使用,错误输出和标准输出一样,也输出了。
行的末尾 ,
当你的命令没敲完,那你就可以加\ 那他就会换行,让你可以继续换行写,而不会提交给shell。
出现坏的解释器的时候,换行符 和shell里面换行符有区别。
数据采集系统流程搭建
--------------------------------------------------
(1)flume:拦截器:数据清洗、分流标记
source:taildir 断点续传
+代表1到多, 如app+,就代表app1d,app22等。
数据传到channel的时候就会有拦截器的操作。
需要把拦截器的jar包放到flume的lib目录下
file-flume-channel.comf 中间的channel 类配置那里要去reference 包名。
一条信息要加一个head,往head里面加一个属性和键值。属性一样,键值不一样用来分流。
multiplexing:这个分流,还有一个replcing 这个是复制发送。
kafaka启动的时候 要指定你要加载的那个properties文件。
flume能将数据直接发送到不存在的topic,kafka他会自动创建,特点是topic只有一个分区
(3) flume 这是第二个flume
功能:上传数据到hdfs,配置:给hadoop配置支持lzo的压缩格式。
压缩格式 lzo:(支持切割),需要索引
snappy:不支持切割
先把hdfs集群关了,修改配置文件。 hdfs第九章配置lzo。