各数据库查询效率对比 hive、hbase、mysql、 oracle

四月天03

已于 2022-04-23 23:53:58 修改

阅读量1.5w

点赞数 8

分类专栏：数据库 Hbase 文章标签：数据库 hbase mysql

于 2019-11-27 14:52:38 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_22473611/article/details/103275486

版权

Hbase 同时被 2 个专栏收录

15 篇文章

订阅专栏

8 篇文章

订阅专栏

本文对比了Hadoop&Hive与Oracle在处理大规模数据集时的性能，发现Oracle在特定查询上的表现优于Hadoop&Hive。此外，通过实验比较了HBase和MySQL在读写速度上的表现，结果显示HBase在处理大量数据时具有优势。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、hive和oracle的性能测试

环境如下：
oracle 三节点rac，使用共享存储
Hadoop&hive 一个主节点，5个数据节点。
两个环境每台服务器的配置基本一样，都是物理实机。

为比较hadoop和oracle性能
在oracle rac当中tbilllog中导入了20亿条日志记录，占用空间表500G；
在hadoop&hive当中，同样也建表tbilllog导入了20亿条日志记录，点用hdfs空间也大概500G

下面用同样的SQL查询，进行性能对比，发现在oracle中的性能明显还要比hive中的要好

Select substr(Bindingphone,1,3), Count(Callid)
From Members Join icd32.Tbilllog
On Members.Bindingphone = Tbilllog0.Callerno
Group By substr(Bindingphone,1,3);

在oracle数据库里，SQL查询时间是20多分钟
而在hive里要用上2个多小时
这个结果令人惊讶，难道是因为hadoop节点不够多，数据量还不够大，还是因为hadoop&hive性能参数设置的不太优化？
Oracle在500G的2亿行的数据里查询性能仍占优势，那hadoop&hive优势在哪呢？

二、查询MYSQL和查询HBASE速度比较

Mysql，关系型数据库；

HBase，NoSql数据库。

查询Mysql和查询HBase，到底哪个速度快呢？

与一些真正的大牛讨论时，他们说HBase写入速度，可以达到每秒1W。而HBase的理想速度为每秒10W。

来个实验说明一下，此实验只能表明，当前环境下运行状态。我的实验效果，没有到1W，还在优化中…

环境：

有3台虚拟机，运行Hadoop集群；3台虚拟机也在跑HBase：master，node1，node2

master上，同时安装了Mysql数据库。

目前有这样一个需求：

有一堆文本文件，每个文本文件内，存储着日志；

每一行为一条记录；

现在需要，逐行读取记录，并根据记录中的mac地址和sn号，去从HBase或Mysql中，获取账号信息。

然后合并成一条记录，写入HBase的“SHUJU”表内。

Mysql表结构：

id,mac,sn,addtime,account

HBase表结构：

ROWKEY为mac+sn，mac，sn，account，addtime

测试效果如下：

每隔一分钟，执行一次count操作，统计当前数据条数。

select count(1) from SHUJU

结果如下

=====================================

Mysql上，第一次测试。

开始时间11:03:15

28135（条数）

39014

49659

264564

274379

285174（条数）

结束时间11.26.15

285174 – 28135 = 257039

257039 / 23 = 11 175.608695652

也是1W以上。。。

=====================================

查询的 HBase库

开始时间14:43:00

5622（条数）

16671

25062

34848

46652

58001

69690

79908（条数）

结束 14:50:00

79908 – 5622 = 74 286

74286 /7 = 10 612 每分钟个数。

=====================================

mysql

开始 14:58:30

19248（条数）

26526

36389

45837

51945

62497

72319

82695（条数）

结束时间：15:04:30

间隔七分钟

82695 – 19248 = 63 447

93447 / 7 = 9 063.8571428571

======================================

可以看出在HBase中速度，比mysql中速度略快一点。

但是总的速度，还是有待提高。。。

HBase与Oracle读写读写性能比较

在研究传统数据库（如Oracle）在数据存取过程中的表现时，采用了按照月进行分区、创建复杂查询条件索引、添加存储过程、避免全表扫描操作（如执行“like”语句）、建立缓存等设计。

研究发现索引过多则写入性能下降，而且对非结构化数据存储支持性能不佳，在整体大数据操作上编程和配置的复杂度提高。

研究测试了直接对GPS数据表进行插入和读取操作的速度情况：

在进行数据插入操作时（对比每分钟插入数据量），百万条以下的数据插入速度Oracle和HBase没有明显差异，但超过百万条以后，Oracle的数据插入速度逐步下降，千万条以上HBase数据插入速度比Oracle快2～7倍；

在进行数据读取操作时，HBase千万条以上数据读取速度是Oracle的5～15倍；

在同时进行插入和读取操作的过程时，HBase读取速度比Oracle快15～30倍。在相同的硬件和网络环境中分析对海量交通流数据的处理能力，HBase列式数据库无论从插入性能还是读取性能都可以调优到更高水平。

博客等级

码龄11年

大数据领域优质创作者

博客专家认证

272
原创

903
点赞

6255
收藏

5万+
粉丝

关注

私信

热门文章

分类专栏

最新评论

Python爬虫：原理与实战
北风之神c: 总结的很全面的爬虫，写得赞，博主用心了。此国产分布式函数调度框架 funboost python万能通用函数加速器 https://funboost.readthedocs.io/zh-cn/latest/articles/c8.html 加到爬虫更强更自由更简单。 funboost 分布式函数调度框架，定位于调度用户的任何函数，只要用户在函数里面写爬虫代码，就可以分布式调度爬虫，并且对爬虫函数施加30种控制功能, 例如 qps恒定任何时候随意关机重启代码消息万无一失确认消费非常简单的开启多进程叠加线程/协程,这些强大的功能绝大部分爬虫框架还做不到。此框架如果用于爬虫，不管从任何方面比较可以领先scrapy20年，也比任意写的爬虫框架领先10年。主要是思维问题，爬虫框架一般就设计为url请求调度框架，url怎么请求都是被框内置架束缚死了，所以有些奇葩独特的想法在那种框架里面难以实现，需要非常之精通框架本身然后改造框架才能达到随心所欲的驾驭的目的。而此框架是函数调度框架，函数里面可以实现一切任意自由想法，天生不会有任何束缚，主要还是思想问题，国内一般人设计的爬虫框架都是仿scrapy api，天生不自由受束缚。使用funboost，与用户使用爬虫框架或者手写多线程爬虫相比， funboost都代码更少更强更简单更自由。 pip install funboost 或者是直接使用 pip install boost_spider (powerd by funboost)，boost_spider比funboost增加了更加专门的针对爬虫请求和解析和存储。 https://github.com/ydf0509/boost_spider
WORD批量修改文献引用为上标
驽马十驾，功在不舍: 太好用了，点赞
如何搭建漂亮的SpringBoot架构
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)提升标题与正文的相关性。
CUP架构：X86架构与Arm架构
小埋935: cup架构？
CDH大数据平台
小小一心: 1、这个文章不全一呀， 2、大数据平台：华为的dws也有啊 3、报表平台还有：Dataease，PowerBI 4、调度的还有xxl-job

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

四月天03 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。