Hadoop+Hive+Mysql环境搭建

最新推荐文章于 2024-08-27 23:41:00 发布

皮斯特劳沃

最新推荐文章于 2024-08-27 23:41:00 发布

阅读量1.1w

点赞数 2

分类专栏： hadoop 文章标签： hadoop hive mysql

本文链接：https://blog.csdn.net/pistolove/article/details/76301533

版权

本文档详细介绍了如何搭建Hadoop、Hive和Mysql环境。从了解Hadoop、Hive的基本概念，到Jdk的安装，再到Hadoop的搭建过程，包括配置Hadoop的各个步骤和验证安装。接着是Hive的安装，包括下载、配置环境变量、配置参数等。同时，还涵盖了Mysql的安装和与Hive的连接，以及在遇到问题时的解决方案。

摘要由CSDN通过智能技术生成

1、了解

学习链接：
http://hadoop.apache.org/
http://spark.apache.org/
http://hive.apache.org/
https://github.com/apache/spark/tree/master/examples/src/main/java/org/apache/spark/examples

1、hive是一个数据仓库
2、hive基于hadoop。
总结为：hive是基于hadoop的数据仓库。

Hive是建立在Hadoop文件系统上的数据仓库架构，并对存储在HDFS中的数据进行分析和管理。（即对存储在HDFS中的数据进行分析和管理，我们不想使用手工方式而是建立一个工具，而这个工具就是hive）

Hive定义了一种类似SQL的查询语言HQL，用户可以直接利用Hive来查询数据。其允许熟悉 MapReduce 开发者开发自定义的mappers和reducers来处理内建的mappers和reducers无法完成的复杂分析工作。Hive允许用户编写自定义的函数UDF在查询中使用。Hive中有3种UDF：User Defined Functions（UDF）、User Defined Aggregation Functions（UDAF）、User Defined Table Generating Functions（UDTF）。

Hive是一个成功的Apache项目，很多组织把它用作一个通用的、可伸缩的数据处理平台。Hive和传统的关系型数据库有很大的区别，Hive将外部的任务解析成一个MapReduce可执行计划，而启动MapReduce是一个高延迟的一件事，每次提交任务和执行任务都需要消耗很多时间，这也就决定Hive只能处理一些高延迟的应用（如果你想处理低延迟的应用可以考虑Hbase）。由于设计的目标不一样，Hive目前还不支持事务；不能对表数据进行修改（不能更新、删除、插入；只能通过文件追加数据、重新导入数据）；不能对列建立索引（但是Hive支持索引的建立，但是不能提高Hive的查询速度。如果想提高Hive的查询速度，可以学习Hive的分区、桶的应用）。

hbase和hive的对比：

共同点：
1、hbase与hive都是架构在hadoop之上的，都是用hadoop作为底层存储。

区别：
2、Hive是建立在Hadoop之上为了减少MapReduce jobs编写工作的批处理系统，HBase是为了支持弥补Hadoop对实时操作的缺陷的项目。
3、在操作RMDB数据库，如果是全表扫描，就用Hive+Hadoop，如果是索引访问，就用HBase+Hadoop 。
4、Hive query就是MapReduce jobs可以从5分钟到数小时不止，HBase是非常高效的，肯定比Hive高效的多。
5、Hive本身不存储和计算数据，它完全依赖于HDFS和MapReduce，Hive中的表纯逻辑。
6、hive借用hadoop的MapReduce来完成一些hive中的命令的执行。
7、hbase是物理表，不是逻辑表，提供一个超大的内存hash表，搜索引擎通过它来存储索引，方便查询操作。
8、hbase是列存储。
9、hdfs作为底层存储，hdfs是存放文件的系统，而Hbase负责组织文件。
10、hive需要用到hdfs存储文件，需要用到MapReduce计算框架。

2、Jdk安装

下载地址：http://download.oracle.com/otn-pub/java/jdk/8u144-b01/090f390dda5b47b9b721c7dfaa008135/jdk-8u144-linux-x64.tar.gz

3、Hadoop搭建

准备

1、增加新的用户

adduser hadoop//添加一个名为hadoop的用户，该用户随意取  
passwd hadoop //修改密码

2、给用户hadoop增加root权限，切换到root下使用命令visudo

在
root         ALL=(ALL)       ALL
下面增加
hadoop   ALL=(ALL)       ALL

3、修改主机名

vim /etc/sysconfig/network
NETWORKING=yes
HOSTNAME=hadoop

sudo hostname hadoop 让修改生效，无需重启

4、修改主机名和IP的映射关系

vim /etc/hosts
192.168.205.132（本机linuxIP地址）    hadoop

5、关闭防火墙
查看防火墙状态

        service iptables status

关闭防火墙

        service iptables stop

下载hadoop

1、使用wget直接下载：

wget http://mirrors.hust.edu.cn/apache/hadoop/core/stable/hadoop-

最低0.47元/天解锁文章

皮斯特劳沃

关注

2
点赞
踩
43

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录