目录
一、集群配置

namenode和secondarynamenode不要安装在同一台服务器,后面是前面的秘书,都很消耗内存
resourcemanager也很消耗内存,不要和namenode、seconarynamenode配置在同一 台机器
首先配置core.site.xml在hadoop内部配置
通过vim core.site.xml的命令修改,
第一个配置搞定,之后配置hdfs
之前配置的namenode的地址hadoop102:8020相当于是hadoop内部的一个通讯地址,现在想要我们在外部访问hdfs,所以要暴露一个外部接口hadoop102:9870
2NN安装在hadoop104服务器上,也给一个地址
具体的命令如下![]()
之后再配置yarn.site.xml,vim yarn.site.xml

接下来配置mapreduce,
现在只在102上配置完这些了,要在103,104上也要有相同的配置
现在就会用到分发的命令,这里用到的是分发的脚本xsync

现在hadoop集群配置完毕
二、启动集群
启动集群需要配置works
vim works
不允许有空格
启动集群前要注意初始化,
用jps【jps(Java Virtual Machine Process Status Tool)是JDK 1.5提供的一个显示当前所有java进程pid的命令,简单实用,非常适合在linux/unix平台上简单察看当前java进程的一些简单情况。】查看一下namenode、datanode是否在每台hadoop上启动完毕
在102上启动完毕,
在103上查看是否启动完毕

ok103也没问题
再查看104

ok104也没问题
可以打开外部的接口hadoop102:9870

然后启动yarn,一定要记住在103上

好 现在103和我的集群规划一摸一样了

102也和我的集群规划一模一样了
可以打开yarn的调度平台
集群这就启动完毕了

之后进行一下集群的测试
上传小文件和大文件

hdfs fs -put 路径 -put表示上传文件到hdfs,这里上传的是大文件jdk
上传的文件数据会保存到一开始配置的core.site.xml配置文件指定的路径中

这里有一个jdk 将这两个文件全部压缩 再解压缩就会看到jdk的解压包
之后可以看到hdfs的存储位置是如下图
每台hadoop都会有一个副本
接下来执行一个wordcount

输入如上图命令 执行jar包 将Map Reduce代码(WordCount是MapReduce分布式计算框架的demo,可以作为MapReduce入门Demo,了解其思想)捆绑到jar文件中,之后执行,输入路径是集群的根目录/wcinput 输出路径也得是集群的输出路径(运行WordCount要配置输入和输出目录,不然会报错,而且输出目录不能存在,运行时会自动创建)
这个是任务运行的页面,历史服务器没有配置,所以需要配置历史服务器
下周:kafka ui部署一下
小文件存储,fastDFS,glas
分布式小文件存储
5093

被折叠的 条评论
为什么被折叠?



