解析IBM SQL-on-Hadoop的优化思路

最新推荐文章于 2024-09-21 21:27:42 发布

数控小J

最新推荐文章于 2024-09-21 21:27:42 发布

阅读量499

点赞数 1

分类专栏： hadoop 文章标签： SQL hadoop 大数据

hadoop 专栏收录该内容

31 篇文章 1 订阅

订阅专栏

对于Big SQL的优化，您需要注意以下六个方面：

1．平衡的物理设计

在进行集群的物理设计需要考虑数据节点的配置要一致，避免某个数据节点性能短板而影响整体性能。而对于管理节点，它虽然不保存业务数据，但作为管理服务和BigSQL系统包空间的存储，也需要配置一定数量的磁盘。另外，CPU／内存／磁盘的配比要合理，用户可以参考以下配置作为物理设计的基础：

CPU：16核

内存：128GB

硬盘：600GB * 2块（系统使用），数据节点3TB * 12块/管理节点3TB* 12块

2. 并行的I/O

为了达到更高的I/O吞吐量，您需要尽量将数据分到多块磁盘上。具体来说，您需要这样的设置：

dfs.data.dir=/data1/hdfs,/data2/hdfs,/data3/hdfs,/data4/hdfs
bigsql_db_dir=/data1/bigsql,/data2/bigsql,/data3/bigsql,/data4/bigsql

注意bigsql_db_dir 目录在Big SQL的Head Node和Worker Node都需要具体同样的路径。

3. 合适的存储格式

Big SQL支持多种格式，包括TEXT、SEQUENCE、RC、PARQUET、Avro、ORC等存储格式。BigSQL会自动根据文件格式选择相应的Reader以求最佳性能。选择存储格式需要在加载速度／压缩比／查询性能／收集统计信息速度之间折中。不同的存储格式之间对比请参考《BigSQL支持的存储格式和对应的建表语句》。

对于Big SQL，Parquet通常是最优的存储格式。