Hadoop+Hive+Mysql环境搭建

本文档详细介绍了如何搭建Hadoop、Hive和Mysql环境。从了解Hadoop、Hive的基本概念,到Jdk的安装,再到Hadoop的搭建过程,包括配置Hadoop的各个步骤和验证安装。接着是Hive的安装,包括下载、配置环境变量、配置参数等。同时,还涵盖了Mysql的安装和与Hive的连接,以及在遇到问题时的解决方案。
摘要由CSDN通过智能技术生成

1、了解

学习链接:
http://hadoop.apache.org/
http://spark.apache.org/
http://hive.apache.org/
https://github.com/apache/spark/tree/master/examples/src/main/java/org/apache/spark/examples


1、hive是一个数据仓库
2、hive基于hadoop。
总结为:hive是基于hadoop的数据仓库。


Hive是建立在Hadoop文件系统上的数据仓库架构,并对存储在HDFS中的数据进行分析和管理。(即对存储在HDFS中的数据进行分析和管理,我们不想使用手工方式而是建立一个工具,而这个工具就是hive)


Hive定义了一种类似SQL的查询语言HQL,用户可以直接利用Hive来查询数据。其允许熟悉 MapReduce 开发者开发自定义的mappers和reducers来处理内建的mappers和reducers无法完成的复杂分析工作。Hive允许用户编写自定义的函数UDF在查询中使用。Hive中有3种UDF:User Defined Functions(UDF)、User Defined Aggregation Functions(UDAF)、User Defined Table Generating Functions(UDTF)。


Hive是一个成功的Apache项目,很多组织把它用作一个通用的、可伸缩的数据处理平台。Hive和传统的关系型数据库有很大的区别,Hive将外部的任务解析成一个MapReduce可执行计划,而启动MapReduce是一个高延迟的一件事,每次提交任务和执行任务都需要消耗很多时间,这也就决定Hive只能处理一些高延迟的应用(如果你想处理低延迟的应用可以考虑Hbase)。由于设计的目标不一样,Hive目前还不支持事务;不能对表数据进行修改(不能更新、删除、插入;只能通过文件追加数据、重新导入数据);不能对列建立索引(但是Hive支持索引的建立,但是不能提高Hive的查询速度。如果想提高Hive的查询速度,可以学习Hive的分区、桶的应用)。


hbase和hive的对比:

共同点:
1、hbase与hive都是架构在hadoop之上的,都是用hadoop作为底层存储。

区别:
2、Hive是建立在Hadoop之上为了减少MapReduce jobs编写工作的批处理系统,HBase是为了支持弥补Hadoop对实时操作的缺陷的项目 。
3、在操作RMDB数据库,如果是全表扫描,就用Hive+Hadoop,如果是索引访问,就用HBase+Hadoop 。
4、Hive query就是MapReduce jobs可以从5分钟到数小时不止,HBase是非常高效的,肯定比Hive高效的多。
5、Hive本身不存储和计算数据,它完全依赖于HDFS和MapReduce,Hive中的表纯逻辑。
6、hive借用hadoop的MapReduce来完成一些hive中的命令的执行。
7、hbase是物理表,不是逻辑表,提供一个超大的内存hash表,搜索引擎通过它来存储索引,方便查询操作。
8、hbase是列存储。
9、hdfs作为底层存储,hdfs是存放文件的系统,而Hbase负责组织文件。
10、hive需要用到hdfs存储文件,需要用到MapReduce计算框架。


2、Jdk安装

下载地址:http://download.oracle.com/otn-pub/java/jdk/8u144-b01/090f390dda5b47b9b721c7dfaa008135/jdk-8u144-linux-x64.tar.gz


3、Hadoop搭建

准备

1、增加新的用户

adduser hadoop//添加一个名为hadoop的用户,该用户随意取  
passwd hadoop //修改密码  

2、给用户hadoop增加root权限,切换到root下使用命令visudo

在
root         ALL=(ALL)       ALL
下面增加
hadoop   ALL=(ALL)       ALL

3、修改主机名

vim /etc/sysconfig/network
NETWORKING=yes
HOSTNAME=hadoop

sudo hostname hadoop 让修改生效,无需重启

4、修改主机名和IP的映射关系

vim /etc/hosts
192.168.205.132(本机linuxIP地址)    hadoop

5、关闭防火墙
查看防火墙状态

        service iptables status

关闭防火墙

        service iptables stop

下载hadoop

1、使用wget直接下载:

wget http://mirrors.hust.edu.cn/apache/hadoop/core/stable/hadoop-
  • 2
    点赞
  • 43
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值