![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hive
CristianT
这个作者很懒,什么都没留下…
展开
-
问题分析报告--压力环境下运行缓慢
问题分析报告--压力环境下运行缓慢1、问题描述1.1 基本信息[Basic Information]集群规模:37+3台物理机,每台128G内存;CPU:2*16C;SATA磁盘,2T*12hadoop社区版本:**商业版本:FusionInsight_HD_V100R002C60U10MetaStore:高斯数据库(Postgresql)1.2 问题描述[原创 2016-11-06 13:39:18 · 321 阅读 · 0 评论 -
问题分析报告--读取ORC文件报seek错误
问题分析报告--读取ORC文件报seek错误1、问题描述1.1 基本信息[Basic Information]集群规模:37+3台物理机,每台128G内存;CPU:2*16C;SATA磁盘,2T*12hadoop社区版本:**商业版本:FusionInsight_HD_V100R002C60U10MetaStore:高斯数据库(Postgresql)1.2原创 2016-11-12 14:53:29 · 1061 阅读 · 0 评论 -
Hive优化--关键参数及HQL案例
1. 关键参数及HQL案例1.1. 当输入数据量较大时减小Map处理的最大数据量已知表midsrc有1.5亿条记录,如下:分别设置map处理最大数据量为1024000000、512000000、256000000、128000000观察以下语句的执行情况。统计信息如下:Map处理的最大数据量Mapper数执行时长(原创 2016-10-20 23:41:51 · 1355 阅读 · 1 评论 -
Hive优化--定位调优指导
1.1. 日志搜集 1.1.1. HiveServer日志获取Hive调优需要看HiveServer的运行日志及GC日志。HiveServer日志路径为:HiveServer节点的/var/log/Bigdata/hive/hiveserver/。文件名日志内容hive.logHiveServer运行日志原创 2016-10-20 23:42:56 · 2723 阅读 · 0 评论 -
问题分析报告--DBService备份问题
1、问题描述1.1 基本信息[Basic Information]集群规模:37+3台物理机,每台128G内存;CPU:2*16C;SATA磁盘,2T*12hadoop社区版本:**商业版本:FusionInsight_HD_V100R002C60U10MetaStore:高斯数据库(Postgresql)1.2 问题描述[Problem Description]hive任原创 2016-11-12 14:50:43 · 1129 阅读 · 0 评论 -
问题分析报告--简单SQL启动MR
1、问题描述1.1 基本信息[Basic Information]集群规模:37+3台物理机,每台128G内存;CPU:2*16C;SATA磁盘,2T*12hadoop社区版本:**商业版本:FusionInsight_HD_V100R002C60U10MetaStore:高斯数据库(Postgresql)1.2 问题描述[Problem Description]10月24原创 2016-11-12 14:48:45 · 712 阅读 · 0 评论 -
问题分析报告--在压力场景下OS在某种硬件环境下的性能可能会下降90%的问题
1、问题描述1.1 基本信息[Basic Information]集群规模:37+3台物理机,每台128G内存;CPU:2*16C;SATA磁盘,2T*12hadoop社区版本:**商业版本:FusionInsight_HD_V100R002C60U10MetaStore:高斯数据库(Postgresql)1.2 问题描述[Problem Description]本问题属于原创 2016-11-12 14:46:04 · 551 阅读 · 0 评论 -
Hive参数
命名空间使用权限描述hivevar可读/可写用户自定义变量hiveconf可读/可写Hive相关的配置属性system可读/可写java定义的配置属性env只可读shell环境定义的环境变量set;set -v;SET(不带-v)打印出命名空间hivevar,hiveco原创 2016-10-20 23:49:34 · 349 阅读 · 0 评论 -
Hive优化--关键参数配置指导
1. 关键参数配置指导1.1. Container内存相关原创 2016-10-20 23:40:16 · 5609 阅读 · 0 评论 -
Hive调优的目标、原则及手段
1. Hive调优的目标、原则及手段1.1. 调优目标Hive调优的目标是在不影响其他业务正常运行的前提下,最大限度利用集群的物理资源,如CPU、内存、磁盘IO,使其某一项达到瓶颈。如下CPU接近瓶颈: 1.2. 调优原则(1)保证map扫描的数据量尽量少减少map端扫描数量,需要控制待处理的表文件或中间文件的数据量尽量少。优化的方式如:Hiv原创 2016-10-20 23:36:56 · 1684 阅读 · 0 评论 -
Hive优化--分区表与分桶表
1. 根据业务特征创建分区表使用分区表能有效地分隔数据,分区条件作为查询条件时,减少扫描的数据量,加快查询的效率。 如果业务数据有明显的时间、区域等维度的区分,同时有较多的对应维度的查询条件时,建议按照相应维度进行一级或多级分区。2. 根据业务特征创建分桶表分桶的目的是便于高效采样和为Bucket MapJoin及SMB Join做数据准备。对于Hive表有按照某原创 2016-10-20 23:34:43 · 2058 阅读 · 0 评论 -
Hive优化--文件压缩格式
1.1. Hive表文件及中间文件使用合适的文件压缩格式GZip和Snappy,这两种压缩算法在大数据应用中最常见,适用范围最广,压缩率和速度都较好,读取数据也不需要专门的解压操作,对编码来说透明。压缩率跟数据有关,通常从2到5不等;两种算法中,GZip的压缩率更高,但是消耗CPU更高,Snappy的压缩率和CPU消耗更均衡。 对于存储资源受限或客户要求文件必须压缩的场景,原创 2016-10-20 23:32:28 · 413 阅读 · 0 评论 -
Hive优化--文件格式
1. Hive调优前相关规划设计Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供Hive SQL(简称HQL)查询功能,可以将HQL语句转换为MapReduce、Tez、Spark任务运行。本文仅讨论Hive on MapReduce的性能调优场景。在进行Hive参数调优和SQL调优之前,要进行相应的规划设计,包括:Hive表使用高效原创 2016-10-20 23:30:47 · 696 阅读 · 0 评论 -
问题分析报告--Hive表列属性更新慢并偶尔更新失败
问题分析报告--Hive表列属性更新慢并偶尔更新失败1、问题描述1.1 基本信息[Basic Information]集群规模:37+3台物理机,每台128G内存;CPU:2*16C;SATA磁盘,2T*12hadoop社区版本:**商业版本:FusionInsight_HD_V100R002C30LCN001SPC005MetaStore:高斯数据库(Post原创 2016-11-06 13:38:01 · 4705 阅读 · 0 评论