Apache Hive VS Spark：不同目的，同样成功！

「已注销」

于 2019-08-26 18:15:11 发布

阅读量1k

点赞数 2

分类专栏：干货文章文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/duxinshuxiaobian/article/details/100083239

版权

Hive是基于Hadoop的开源数据仓库，提供SQL接口进行大规模数据分析，适合数据仓库操作。Spark是一个分布式大数据框架，擅长内存中快速分析，适用于复杂的数据流处理。Spark Streaming可实现实时数据流分析，支持多种编程接口。

摘要由CSDN通过智能技术生成

全文共2283字，预计学习时长5分钟

图片来源：pexels.com/photo/sliced-lemon-952354/

Hive和Spark凭借其在处理大规模数据方面的优势大获成功，换句话说，它们是做大数据分析的。本文重点阐述这两种产品的发展史和各种特性，通过对其能力的比较，来说明这两个产品能够解决的各类复杂数据处理问题。

什么是Hive?

Hive是在Hadoop分布式文件系统上运行的开源分布式数据仓库数据库，用于查询和分析大数据。数据以表格的形式存储(就像关系数据库管理系统一样)。数据操作可以使用名为HiveQL的SQL接口来执行。Hive在Hadoop之上引入了SQL功能，使其成为一个水平可扩展的数据库，是DWH00环境的绝佳选择。

Hive发展史掠影

Hive(即后来的Apache)最初是由Facebook开发的，开发人员发现他们的数据在几天内出现了从GBs到TBs的指数级增长。当时，Facebook使用Python将数据加载到RDBMS数据库中。因为RDBMS数据库只能垂直伸缩，很快就面临着性能和伸缩性问题。他们需要一个可以水平伸缩并处理大量数据的数据库。Hadoop在当时已经很流行了;不久

最低0.47元/天解锁文章

「已注销」 CSDN认证博客专家 CSDN认证企业博客

码龄6年

2070: 原创

-: 周排名

-: 总排名

351万+: 访问

: 等级

4万+: 积分

4914: 粉丝

4459: 获赞

1312: 评论

1万+: 收藏

私信

关注

热门文章

分类专栏

热点文章 552篇
学术报告 11篇
干货文章 39篇
AI 1079篇
热点文章 559篇
热门文章 1篇
干货文章 69篇
学术报告

最新评论

快换浏览器吧！Google Chrome是最烂的浏览器
小没苯agoe: 赞同！！！edge比chrome快22%，firefox比chrome快16%!
提前返回有好处吗？
温庭筠: 我不使用提前返回, 因为接手别人的代码时确实比较难理解一旦代码达到了维护阶段，新手程序员试图推理逻辑时，多次返回就会大大影响他们的效率（当注释比较分散，代码模糊不清时尤其糟糕）
在Windows系统和Linux系统中，如何打造一个好终端？
全栈小5: 文章结构严谨，每次阅读都能收获知识，感谢博主的分享，期待博主继续更新高质量文章，支持！【如何让windows终端和linux一样好用，博主这篇文章，值得一看】
NLP入门第一步：6种独特的数据标记方式
麦甜守望者: 有中文怎么标注的吗？
海量案例！生成对抗网络（GAN）的18个绝妙应用
PreWisdom: 18 Impressive Applications of Generative Adversarial Networks (GANs) by Jason Brownlee on July 12, 2019 in Generative Adversarial Networks https://machinelearningmastery.com/impressive-applications-of-generative-adversarial-networks/ 你知道我要说什么吧，你这完全是把别人的文章简单翻译了一下搬过来了，然后你发原创，真行啊

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。