对Hadoop和Hive的初步认识

最新推荐文章于 2024-01-18 20:02:32 发布

游戏大爷君

最新推荐文章于 2024-01-18 20:02:32 发布

阅读量779

点赞数

文章标签： hadoop hive 数据仓库

原文链接：https://www.fgba.net/forum-53-1.html

版权

一、Hadoop

Hadoop是有Apache基金会所开发的分布式系统处理架构，是一个能够对大量数据进行分布式处理的软件框架，以一种可靠、高效、可伸缩的方式进行数据处理。

Hadoop框架最核心的设计就是HDFS（Hadoop Distributed File System）和MapReduce。

HDFS为海量的数据提供了存储，而MapReduce为海量的数据提供了计算。

对外部客户机而言，HDFS就像一个传统的分级文件系统，可以创建、删除、移动或重命名文件。个人理解我们现在使用的网盘就是这种思想。

MapReduce是一个软件框架，基于该框架能够容易地编写应用程序，这些应用程序能够运行在由上千个商用机器组成的大集群上，并以一种可靠的，具有容错能力的方式并行地处理上TB级别的海量数据集。

MapReduce的思想是“分而治之”，mapper负责将严格复杂的任务分成若干简单的任务，分成的简单任务规模会大大缩小，且能够并行计算，彼此之间不存在依赖关系。reducer负责将map之后得到的结果进行汇总。

二、Hive

首先，需要了解数据仓库。

数据仓库：一个更好地支持企业或者组织的决策分析处理的面向主题的、集成的、不可更新的、随时间不断变化的数据集合。

传统的数据库，主要是面对OLTP（联机事物处理），比如银行的交易；

数据仓库主要面对OLAP（联机分析处理），侧重决策分析。

关于OLTP与OLAP，比较如下：

数据仓库在数据行业扮演的角色如下图所示

数据源是由多种方式得来的，比如爬虫、企业内部数据等，通过对二手域名交易平台数据源里面的数据进行ETL操作，将数据存储进数据仓库，利用OLAP服务器进行决策分析，最后生成数据报表或者进行数据挖掘。

ETL：一种数据仓库技术，是指从数据源进行抽取（extract）、转换（transform）和加载（load）的过程。

数据仓库和OLAP服务器是基于多维数据模型的。多维数据模型将数据看做数据方体，通过维度（dimension）和度量（measure）来定义。

多维数据模型可以通过关系型数据库或者多维数组来实现。

关系型数据库适应性、伸缩型和扩展性好，不存在数据稀疏问题，但访问效率较慢；而相应地，多维数组则是存储效率高，访问速度快，但不同维度的访问效率差别较大（可以分成几个数据快的方式存储来解决），且数据稀疏时将影响效率（采用数据压缩技术来解决）。

多维数据操作主要有以下几类：

切片（slice）和切块（clice）：在SQL中加入WERE/HAVING进行过滤。
上卷（roll up）和下钻（drill down）：不同粒度的转换
旋转（pivoting）：转动观察数据的角度

简单了解数据仓库之后，再来看看Hive。

Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据映射为一张数据表，可以将SQL语句转化为MapReduce任务进行运行。

个人的理解，首先Hive是依赖于Hadoop存在的，其次因为MapReduce语法较复杂，Hive可以将较简单的SQL语句转化成MapReduce进行计算。

Hive的优缺点：

优点：

类SQL，也即HQL，学习成本低
对大数据有优势（HDFS和MapReduce）
扩展性，支持用户自定义函数
容错性高
拥有统一的元数据进行管理
离线处理

缺点：

HQL的表达能力具有局限性
效率较低

因此Hive主要应用场景是用于时效性不高的海量数据的处理，对于数据量不大反而没有优势，主要用在数据仓库上。

游戏大爷君

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
对Hadoop和Hive的初步认识

一、HadoopHadoop是有Apache基金会所开发的分布式系统处理架构，是一个能够对大量数据进行分布式处理的软件框架，以一种可靠、高效、可伸缩的方式进行数据处理。Hadoop框架最核心的设计就是HDFS（Hadoop Distributed File System）和MapReduce。HDFS为海量的数据提供了存储，而MapReduce为海量的数据提供了计算。对外部客户机而言，HDFS就像一个传统的分级文件系统，可以创建、删除、移动或重命名文件。个人理解我们现在使用的网盘就是这种思想
复制链接

扫一扫

游戏大爷君 CSDN认证博客专家 CSDN认证企业博客

码龄3年

1: 原创

17万+: 周排名

47万+: 总排名

45万+: 访问

: 等级

1390: 积分

128: 粉丝

178: 获赞

22: 评论

1094: 收藏

私信

关注

热门文章

分类专栏

游戏 6篇

最新评论

从Spring Cloud到Kubernetes的微服务迁移实践
Welliaanst: 想问下如果有很多使用eureka的服务，在逐个将服务进行改造的过程中怎么样让改造完的和未改造的服务实现互通呢，这个有啥方案嘛，因为不可能所有服务同时使用k8s的，慢慢改造的话该怎么过渡呢，最近一直在想这个问题
在 Linux 中安装微信
不会J_P: 为什么第一个打开是个游戏呢？
在 Linux 中安装微信
不会J_P: 看到最后一句话，我就想到了无数次失败的我们
游戏常用算法：四种迷宫生成算法
→_→: 请问这个是怎么保证迷宫有解的呢
手把手教你实现Unity网络同步
wumengtian123: 这个API都弃用了

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。