大数据技术之Hive

wespten

已于 2023-02-06 21:27:40 修改

阅读量953

点赞数 6

分类专栏： Hadoop Hive Spark 大数据安全文章标签： hive 大数据 hadoop

于 2022-10-27 01:26:25 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_35029061/article/details/127543765

版权

Hadoop Hive Spark 大数据安全专栏收录该内容

130 篇文章 39 订阅 ¥29.90 ¥99.00

订阅专栏

超级会员免费看

一、Hadoops大数据生态

1、Mapreduce

MapReduce是一种编程模型，用于支持能够并行处理的大型数据集，且其封装了并行计算、容错、数据分布、负载均衡等细节问题。

MapReduce 是 Hadoop 生态系统和 Spark 中的一个重要组件，其原理是分治算法（Divide-and-Conquer）：通过把工作拆分成较小的数据集，完成一些独立任务，来支持大量数据的并行处理。

MapReduce 从用户那里获取整个数据集，把它分割为更小的任务（MAP），然后把它们分配到各个工作节点。
一旦所有工作节点成功地完成了它们各自的独立任务，就会聚合（REDUCE）各独立任务的结果，然后返回整个数据集的结果。

通常，Map 和 Reduce 函数是用户定义的函数，它们解决了以往需要用代码解决的业务用例。

2、HDFS

HDFS（Hadoop File System）是 Hadoop 的分布式文件存储系统。

当数据量越来越多，在一个操作系统管辖的范围

了解本专栏

超级会员免费看

关注

6
点赞
踩
12

收藏

觉得还不错? 一键收藏
打赏
4
评论
大数据技术之Hive

Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具，可以用来进行数据的提取转化加载（ETL），这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言，称为 HQL，它允许熟悉 SQL 的用户查询数据。同时，这个语言也允许熟悉 MapReduce 开发者开发自定义的 mapper 和 reducer 来处理内建的 MapReduce 所无法完成的复杂的分析工作。
复制链接

扫一扫

专栏目录

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

wespten 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。