Shark性能测试

最新推荐文章于 2024-04-17 09:50:04 发布

OopsOutOfMemory

最新推荐文章于 2024-04-17 09:50:04 发布

阅读量3.9k

点赞数

分类专栏： shark 文章标签： spark shark hive hadoop 分布式计算

本文链接：https://blog.csdn.net/oopsoom/article/details/34438963

版权

本文对Shark 0.91在Spark 1.0.0和amplab Hive 0.11上的性能进行了测试。测试包括count、sum、avg、group by、join、select、sort等操作，结果显示Shark在简单SQL查询中速度提升3-5倍，而在复杂SQL查询中表现更优，可达Hive的3倍。尽管Shark官方宣称速度提升90倍，但实际效果受多种因素影响。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

按照Shark官方网站的说法，Shark在RAM的时候，比Hive快90倍，这个报告看起来很不错，但是在不同的测试环境和不同的优化条件以及不同的用例场景下，结果都是不同的，所以决定测试了一下Shark0.91搭建在Spark1.0.0和amplab Hive0.11上的性能。

一、集群环境

前面介绍了如何搭建集群：可以参见 Shark集群搭建配置

1台Master （Master仅仅是Master，不当slave）
3台Slave

二、软件环境

Spark1.0.0 with hadoop0.20.2-cdh3u5
Shark0.91 + amplab Hive0.11
对比测试VS.
Apache Hive 0.11

三、测试对象

21G 的Text File 文件建立一个表，对该表进行各种查询的性能测试。
主要分为数据全部cache在内存时的性能和 on disk 时的性能比较。

[hadoop@wh-8-210 shark]$ hadoop dfs -ls /user/hive/warehouse/log/
Found 1 items
-rw-r--r--   3 hadoop supergroup 22499035249 2014-06-16 18:32 /user/hive/warehouse/log/21gfile

create table log
(
c1 string,
c2 string,
c3 string,
c4 string,
c5 string,
c6 string,
c7 string,
c8 string,
c9 string,
c10 string,
c11 string,
c12 string,
c13 string
) row format delimited fields terminated by '\t' stored as textfile;

load data inpath '/user/hive/warehouse/21gfile' into table log;
示例数据：

[10.1.8.210:7100] shark> select * from log_cached limit 10;
        2014-05-15      101289  13836998753     2       2010-08-23 22:36:50     0       0       2010-06-02 16:55:25     2010-06-02 16:55:25             None    0
        2014-05-15      104497  15936529112     2       2011-01-

最低0.47元/天解锁文章