大数据分析学习之路——Hive

最新推荐文章于 2024-05-20 00:05:49 发布

Ashley_JIANG

最新推荐文章于 2024-05-20 00:05:49 发布

阅读量1.1k

点赞数

分类专栏：大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Jacqueline_JIANG/article/details/78632645

版权

大数据专栏收录该内容

9 篇文章 0 订阅

订阅专栏

大数据

什么是大数据? 大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。换句话数据量在TB，PB，甚至更大的多元化数据集合。多，杂的数据
当今数据处理模式：离线处理（先收集数据，再处理）----Hadoop；流式处理（实时处理）---spark

Hadoop

1，The Apache Hadoop project develops open-source software for reliable, scalable, distributed computing.Hadoop是一个由Apache基金会所开发的分布式系统基础架构。

2，特点：reliable, scalable, distributed

3，核心组件及功能

Command:底层依赖库
HDFS：分布式的数据储存
Yarn：任务调度和资源管理
Mapresource：处理海量数据

功能：

HDFS：namenode: 存储元数据信息（元数据：谁创建，什么时间创建，创建在什么节点），管理者

datanode:真正存储数据的节点，执行者

Yarn：resourcemanager：管理平台资源

nodemanager: 机器真正对应的资源—每个机器具体的节点

MapReduce:分布式计算框架

map端：将任务分配到不同的机器节点上（拆分任务）

shuffle：中间桥梁（内容拆分）

reduce端：map结果汇总

4，Hadoop框架的优缺点：

优点：效率高，适合离线处理

缺点：启动开销大（所以只能是数据量很大才适合用了）

Hive

1，Hive 将结构化的数据映射成表格，是数据仓库，使用类SQL语句，进行数据的读写管理

2，与数据库的异同点：

数据处理方面：Hive使用MapReduce, 数据库使用自己的引擎，语句上与sql语句类似
数据格式：hive使用分隔符
hive执行的时候会有延迟，因为hive没有索引，需要整张表进行扫描
hive具有可扩张性

3，Hive与hadoop的关系

hive是建立在大数据平台Hadoop框架之上的大数据仓库，以HQL语句为实现形式，底层转化为经过MapRdeuce处理的，HDFS文件

概念的东西，构架方面的东西，及底层的工作，还需加深理解。

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
大数据分析学习之路——Hive

大数据，hadoop,hive,概念什么是大数据? 大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。换句话数据量在TB，PB，甚至更大的多元化数据集合。多，杂的数据当今数据处理模式：离线处理（先收集数据，再处理）----Hadoop；流式处理（实时处理）---sparkHadoop1，The Apache Hadoop project d
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Ashley_JIANG 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。