Apache Hive VS Spark:不同目的,同样成功!

全文共2283字,预计学习时长5分钟

 

图片来源:pexels.com/photo/sliced-lemon-952354/

Hive和Spark凭借其在处理大规模数据方面的优势大获成功,换句话说,它们是做大数据分析的。本文重点阐述这两种产品的发展史和各种特性,通过对其能力的比较,来说明这两个产品能够解决的各类复杂数据处理问题。

 

什么是Hive?

Hive是在Hadoop分布式文件系统上运行的开源分布式数据仓库数据库,用于查询和分析大数据。数据以表格的形式存储(就像关系数据库管理系统一样)。数据操作可以使用名为HiveQL的SQL接口来执行。Hive在Hadoop之上引入了SQL功能,使其成为一个水平可扩展的数据库,是DWH00环境的绝佳选择。

Hive发展史掠影

Hive(即后来的Apache)最初是由Facebook开发的,开发人员发现他们的数据在几天内出现了从GBs到TBs的指数级增长。当时,Facebook使用Python将数据加载到RDBMS数据库中。因为RDBMS数据库只能垂直伸缩,很快就面临着性能和伸缩性问题。他们需要一个可以水平伸缩并处理大量数据的数据库。Hadoop在当时已经很流行了;不久

  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值