史上最详细的Hadoop环境搭建_Hadoop/Hive/Hbase

1 单机环境

项目 IP
CentOS 7.7 192.168.214.120
MySQL 5.7.26 192.168.214.120

2 软件清单

序号 项目 版本 官网
1 hadoop 2.7.5 http://hadoop.apache.org
2 hadoop-hbase 1.3.5 http://hbase.apache.org
3 hadoop-hive 2.3.7 http://hive.apache.org
4 OpenJdk 1.7.0 http://openjdk.java.net/

3 安装步骤

3.1 Hadoop账号

3.1.1 创建账号

useradd hadoop

3.1.2 设置密码

passwd hadoop

3.2 下载介质

su - hadoop
wget https://archive.apache.org/dist/hadoop/common/hadoop-2.7.5/hadoop-2.7.5.tar.gz
wget https://downloads.apache.org/hive/hive-2.3.7/apache-hive-2.3.7-bin.tar.gz
wget https://archive.apache.org/dist/hbase/1.3.5/hbase-1.3.5-bin.tar.gz

3.3 安装软件 - OpenJdk

su - root
yum install java-1.7.0-openjdk

#检查
java

3.4 安装软件 - Hadoop

3.4.1 解压安装包

#解压安装包
su - hadoop
tar -zxvf hadoop-2.7.5.tar.gz

3.4.2 hdfs存储目录

mkdir -p /home/hadoop/tmp
mkdir -p /home/hadoop/hdfs
mkdir -p /home/hadoop/hdfs/data
mkdir -p /home/hadoop/hdfs/name

3.4.3 Hadoop配置

su - hadoop
cd /home/hadoop/hadoop-2.7.5/etc/hadoop
3.4.3.1 core-site.xml
  <configuration>
 <property>
  <name>fs.default.name</name>
  <value>hdfs://192.168.214.120:9000</value>
  <description>HDFS的URI,文件系统://namenode标识:端口号</description>
 </property>
 <property>
  <name>hadoop.tmp.dir</name>
  <value>/home/hadoop/tmp</value>
  <description>namenode上本地的hadoop临时文件夹</description>
 </property>
</configuration>
3.4.3.2 hdfs-site.xml
<configuration>
 <property>
  
  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
hadoop是一个分布式计算框架,主要用于存储和处理大规模数据。它采用了HDFS(分布式文件系统)来存储数据,MapReduce算法来处理数据。Hadoop的优点在于它可以处理海量的数据,同时也可以保证数据的可靠性和高可用性。对于需要处理海量数据的企业来说,Hadoop是必不可少的工具。 Spark是一个基于内存的分布式计算框架,相较于Hadoop的MapReduce计算模型,Spark采用了基于内存的计算模型。它可以完成实时的数据处理,同时还可以处理大规模的数据。Spark的优点在于它的计算速度非常快,而且支持多种语言和数据源。对于需要实时处理数据的企业来说,Spark是一个非常好的选择。 Hive是一个基于Hadoop的数据仓库工具,它提供了SQL查询语言来查询Hadoop中的数据。Hive的优点在于它可以将查询语言转换成MapReduce作业,从而完成数据查询和处理。Hive的查询速度相较于Hadoop的MapReduce计算模型,有了很大的提升。对于需要将海量数据存储到Hadoop中,并且希望可以通过SQL语言查询数据的企业来说,Hive是一个非常好的选择。 Hbase是一个基于Hadoop的分布式键值对数据库,它支持海量数据的存储和高效的数据查询。Hbase的优点在于它可以快速处理大规模的数据,并且可以横向扩展。对于企业来说,如果需要处理高并发的数据查询,Hbase是一个非常好的选择。 Kafka是一个分布式消息队列系统,它可以处理高并发的消息传输。Kafka的优点在于它可以快速处理大规模的消息,同时保证消息的可靠性和顺序性。对于需要处理高并发的消息传输的企业来说,Kafka是一个非常好的选择。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值