LINUX下单机安装HADOOP+HIVE手册

7 篇文章 0 订阅

 

HADOOP篇
HADOOP安装
1.tar -zvxf hadoop-0.19.2.tar.gz
2.HADOOP的安装路径添加到环境文件/etc/profile中:
export HADOOP_HOME=/home/hadoop/setup/hadoop-0.19.2
export PATH=$HADOOP_HOME/bin:$PATH
HADOOP配置
1.在$HADOOP/conf/hadoop-env.sh中配置JAVA环境
export JAVA_HOME=/home/hadoop/setup/jdk1.7.0_04
2.在$HADOOP/conf/hadoop-site.xml中增加如下配置
<property>   
  <name>fs.default.name</name>   
  <value>hdfs://localhost:9000</value>   
</property>   
<property>   
  <name>mapred.job.tracker</name>   
  <value>localhost:9001</value>   
</property>   
<property>   
   <name>dfs.replication</name>   
   <value>1</value>   
 </property>
 HADOOP运行
1.格式化namenode
$HADOOP_HOME/bin/hadoop namenode -format
2.启动hadoop
$HADOOP_HOME/bin/start-all.sh


HIVE篇
HIVE安装
1.tar -zvxf hive-0.6.0.tar.gz
2.HIVE的安装路径配置到环境文件/etc/profile中:
export HIVE_HOME=/home/hadoop/setup/hive-0.6.0
export PATH=$HIVE_HOME/bin:$PATH
HIVE配置
1.在$HIVE_HOME/conf下创建文件hive-site.xml
<?xml version="1.0"?>  
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>  
  
<configuration>  
 <property>  
 <name>hive.metastore.local</name>  
   <value>true</value>  
 </property>  
  
 <property>  
 <name>javax.jdo.option.ConnectionURL</name>  
   <value>jdbc:mysql://192.168.0.237:3306/metastore_db?createDatabaseIfNotExist=true</value>  
 </property>  
   
 <property>  
 <name>javax.jdo.option.ConnectionDriverName</name>  
   <value>com.mysql.jdbc.Driver</value>  
 </property>  
   
 <property>   
   <name>javax.jdo.option.ConnectionUserName</name>   
   <value>t237</value>   
 </property>   
     
 <property>   
   <name>javax.jdo.option.ConnectionPassword</name>   
   <value>123456</value>   
 </property>   
 <property>   
   <name>datanucleus.fixedDatastore</name>   
   <value>false</value>   
 </property>   
</configuration>  
2.HIVE运行
hadoop@ubuntu:~$ hive 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
HadoopHive、Spark和Zookeeper都是大数据技术栈中重要的组件。 Hadoop是一个由Apache开源的分布式文件系统和计算框架。它能够将大规模的数据分散存储在千台、万台、甚至更多的服务器上,并且实现数据的高效处理和分析。 Hive是在Hadoop之上构建的数据仓库基础设施。它提供了一个类似于SQL的查询语言,可以让用户通过简单的查询语句对存储在Hadoop集群中的数据进行操作和分析。Hive可以将结构化和半结构化的数据映射为一张表格,并提供了诸如过滤、连接、聚合等功能。 Spark是一个快速的、通用的集群计算系统。它提供了分布式数据处理的能力,采用了内存计算方式,相比于Hadoop MapReduce带来了更高的性能和更广泛的应用场景。Spark支持多种编程语言和丰富的组件库,如Spark SQL、Spark Streaming等,可以用于数据处理、机器学习、图计算等任务。 Zookeeper是一个开源的分布式协调服务。它实现了一个分布式的、高可用的、高性能的协调系统,可以提供诸如统一命名服务、配置管理、分布式锁等功能。Zookeeper能够帮助大数据系统中的不同组件进行协调和通信,确保分布式系统的一致性和可靠性。 综上所述,Hadoop用于分布式存储和计算,Hive用于数据仓库和查询分析,Spark用于高性能的集群计算,而Zookeeper用于分布式协调和通信。这四个技术在大数据领域中扮演着不可替代的角色,相辅相成,共同构建了现代大数据生态系统。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值