目录
1 概述
浪潮信息KOS是浪潮信息基于Linux Kernel、OpenAnolis等开源技术自主研发的一款服务器操作系统,支持x86、ARM等主流架构处理器,性能和稳定性居于行业领先地位,具备成熟的 CentOS 迁移和替换能力,可满足云计算、大数据、分布式存储、人工智能、边缘计算等应用场景需求。详细介绍见官网链接浪潮信息云峦服务器操作系统KeyarchOS_KOS服务器操作系统-浪潮信息
Hadoop 是一个开源的分布式计算和存储框架,由 Apache 基金会开发和维护。Hadoop 为庞大的计算机集群提供可靠的、可伸缩的应用层计算和存储支持,它允许使用简单的编程模型跨计算机群集分布式处理大型数据集,并且支持在单台计算机到几千台计算机之间进行扩展。Hadoop 使用 Java 开发,所以可以在多种不同硬件平台的计算机上部署和使用。其核心部件包括分布式文件系统 (Hadoop DFS,HDFS) 和 MapReduce。详细介绍见官网链接Apache Hadoop。
2 安装准备
2.1 操作系统环境
版本信息:KeyarchOS 5.8sp1
硬件平台:X86_64
2.2 Hadoop版本
Hadoop-3.3.1
3 安装
3.1 安装JAVA
JDK1.8(已经在KOS AppSteam仓库发布),可以通过yum install直接安装。
yum install java
3.2 安装Hadoop
下载安装包后解压后进入安装目录
tar zxvf hadoop-3.3.1.tar.gz
3.3 创建密钥
ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
chmod 0600 ~/.ssh/authorized_keys
3.4 配置Hadoop
配置core-site.xml
配置hdfs-site.xml
配置hadoop-env.sh
格式化文件系统
bin/hdfs namenode -format
4 运行Hadoop
4.1 启动dfs进程
sbin/start-dfs.sh
4.2 启动yarn进程
sbin/start-yarn.sh
4.3 查看进程
jps
4.4 登录web端
浏览器访问http://localhost:9870/dfshealth.html
4.5 数据测试
1、创建/user/<username>目录
bin/hdfs dfs -mkdir -p /user/root
2、创建input目录并把数据拷贝进去
bin/hdfs dfs -mkdir input
bin/hdfs dfs -put etc/hadoop/*.xml input
3、用Hadoop自带的测试jar包进行测试
bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.1.jar grep input output 'dfs[a-z.]+'
4、查看运行结果
bin/hdfs dfs -cat output/*