自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(25)
  • 收藏
  • 关注

原创 ResourceManager GC

ResourceManager GCGC,指Garbage Collection 是JAVA/.NET中的垃圾收集器。现象在系统运行高峰期,YARN的RM无法登录或登录界面现实特别慢。应用执行也特别慢。分析与解决方案根据经验,系统RM无法登录,那么有可能是RM进程有问题,所以查看RM进行日志。查看RM的GC日志resourcemanager-omm-201702

2017-02-18 15:00:38 2795

原创 问题分析报告--读取ORC文件报seek错误

问题分析报告--读取ORC文件报seek错误1、问题描述1.1 基本信息[Basic Information]集群规模:37+3台物理机,每台128G内存;CPU:2*16C;SATA磁盘,2T*12hadoop社区版本:**商业版本:FusionInsight_HD_V100R002C60U10MetaStore:高斯数据库(Postgresql)1.2

2016-11-12 14:53:29 1045

原创 问题分析报告--DBService备份问题

1、问题描述1.1 基本信息[Basic Information]集群规模:37+3台物理机,每台128G内存;CPU:2*16C;SATA磁盘,2T*12hadoop社区版本:**商业版本:FusionInsight_HD_V100R002C60U10MetaStore:高斯数据库(Postgresql)1.2 问题描述[Problem Description]hive任

2016-11-12 14:50:43 1119

原创 问题分析报告--简单SQL启动MR

1、问题描述1.1 基本信息[Basic Information]集群规模:37+3台物理机,每台128G内存;CPU:2*16C;SATA磁盘,2T*12hadoop社区版本:**商业版本:FusionInsight_HD_V100R002C60U10MetaStore:高斯数据库(Postgresql)1.2 问题描述[Problem Description]10月24

2016-11-12 14:48:45 708

原创 问题分析报告--在压力场景下OS在某种硬件环境下的性能可能会下降90%的问题

1、问题描述1.1 基本信息[Basic Information]集群规模:37+3台物理机,每台128G内存;CPU:2*16C;SATA磁盘,2T*12hadoop社区版本:**商业版本:FusionInsight_HD_V100R002C60U10MetaStore:高斯数据库(Postgresql)1.2 问题描述[Problem Description]本问题属于

2016-11-12 14:46:04 548

原创 问题分析报告--压力环境下运行缓慢

问题分析报告--压力环境下运行缓慢1、问题描述1.1 基本信息[Basic Information]集群规模:37+3台物理机,每台128G内存;CPU:2*16C;SATA磁盘,2T*12hadoop社区版本:**商业版本:FusionInsight_HD_V100R002C60U10MetaStore:高斯数据库(Postgresql)1.2 问题描述[

2016-11-06 13:39:18 318

原创 问题分析报告--Hive表列属性更新慢并偶尔更新失败

问题分析报告--Hive表列属性更新慢并偶尔更新失败1、问题描述1.1 基本信息[Basic Information]集群规模:37+3台物理机,每台128G内存;CPU:2*16C;SATA磁盘,2T*12hadoop社区版本:**商业版本:FusionInsight_HD_V100R002C30LCN001SPC005MetaStore:高斯数据库(Post

2016-11-06 13:38:01 4682

原创 Hive参数

命名空间使用权限描述hivevar可读/可写用户自定义变量hiveconf可读/可写Hive相关的配置属性system可读/可写java定义的配置属性env只可读shell环境定义的环境变量set;set -v;SET(不带-v)打印出命名空间hivevar,hiveco

2016-10-20 23:49:34 339

原创 JOIN详解

JOIN详解SQL中JOIN有多种:JOIN、INNER JOIN、FULL JOIN、FULL OUTER JOIN、LEFT JOIN、LEFT OUTER JOIN、RIGHT JOIN、LEFT OUTER JOIN。同时不还要注意ON ,WHERE等条件使用。注:1、只有 FULL JOIN 完全强制连接顺序2、大多数 LEFT JOIN 或 RI

2016-10-20 23:47:22 908

原创 Hive优化--定位调优指导

1.1.    日志搜集 1.1.1.   HiveServer日志获取Hive调优需要看HiveServer的运行日志及GC日志。HiveServer日志路径为:HiveServer节点的/var/log/Bigdata/hive/hiveserver/。文件名日志内容hive.logHiveServer运行日志

2016-10-20 23:42:56 2710

原创 Hive优化--关键参数及HQL案例

1.      关键参数及HQL案例1.1.    当输入数据量较大时减小Map处理的最大数据量已知表midsrc有1.5亿条记录,如下:分别设置map处理最大数据量为1024000000、512000000、256000000、128000000观察以下语句的执行情况。统计信息如下:Map处理的最大数据量Mapper数执行时长(

2016-10-20 23:41:51 1350 1

原创 Hive优化--关键参数配置指导

1.      关键参数配置指导1.1.    Container内存相关

2016-10-20 23:40:16 5516

原创 Hive调优的目标、原则及手段

1.      Hive调优的目标、原则及手段1.1.    调优目标Hive调优的目标是在不影响其他业务正常运行的前提下,最大限度利用集群的物理资源,如CPU、内存、磁盘IO,使其某一项达到瓶颈。如下CPU接近瓶颈: 1.2.    调优原则(1)保证map扫描的数据量尽量少减少map端扫描数量,需要控制待处理的表文件或中间文件的数据量尽量少。优化的方式如:Hiv

2016-10-20 23:36:56 1681

原创 Hive优化--分区表与分桶表

1.  根据业务特征创建分区表使用分区表能有效地分隔数据,分区条件作为查询条件时,减少扫描的数据量,加快查询的效率。    如果业务数据有明显的时间、区域等维度的区分,同时有较多的对应维度的查询条件时,建议按照相应维度进行一级或多级分区。2.  根据业务特征创建分桶表分桶的目的是便于高效采样和为Bucket MapJoin及SMB Join做数据准备。对于Hive表有按照某

2016-10-20 23:34:43 2056

原创 Hive优化--文件压缩格式

1.1.    Hive表文件及中间文件使用合适的文件压缩格式GZip和Snappy,这两种压缩算法在大数据应用中最常见,适用范围最广,压缩率和速度都较好,读取数据也不需要专门的解压操作,对编码来说透明。压缩率跟数据有关,通常从2到5不等;两种算法中,GZip的压缩率更高,但是消耗CPU更高,Snappy的压缩率和CPU消耗更均衡。    对于存储资源受限或客户要求文件必须压缩的场景,

2016-10-20 23:32:28 407

原创 Hive优化--文件格式

1.      Hive调优前相关规划设计Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供Hive SQL(简称HQL)查询功能,可以将HQL语句转换为MapReduce、Tez、Spark任务运行。本文仅讨论Hive on MapReduce的性能调优场景。在进行Hive参数调优和SQL调优之前,要进行相应的规划设计,包括:Hive表使用高效

2016-10-20 23:30:47 695

原创 获取gp表结构的函数

说明:此函数可以获取二级分区表以内的表结构,里面添加了一些关键字过滤,可能不全,遇到时可自行添加用法:select get_gp_create_sql('schemaname.tablename')-- Function: public.get_gp_create_sql(text)-- DROP FUNCTION public.get_gp_create_sql(te

2016-10-20 23:26:13 3699

原创 Greenplum中内存设置不合理导致的报错

现象:以下2个案例:1.RPSM_TRADE_INFO_NLC这个脚本的 560行报错脚本中写法:         DELETEFROM $RPSM_SCH.RPSM_TRADE_INFO O         USING        TEMP_RPSM_TRADE_INFO_NLC_YXLC_PRE N         WHEREN.TRANS_SID = O.TRA

2016-10-20 23:25:30 9389

原创 表关联优化方法分享

在数据库中,表与表之间的关联,通过JOIN连接。可以理解为“横向关联”,如果是多个大表,“横向关联”,效率比较慢; “纵向关联”:UNION每个表,再GROUPBY去重,得到“关联”的效果。“纵向关联”效率比“横向关联”强很多。举例:T1,T2,T3,T4,T5,每个表有5000万条数据。“横向关联”: JOIN关联,实际是5000万*5000万*5000万*5000万*5000万,实

2016-06-11 23:01:26 1212

原创 ubuntu 15.10下设置静态IP地址

ubuntu 15.10下设置静态IP地址

2016-01-30 23:08:41 1828

原创 Linux下管理用户

Linux下用户管理

2016-01-30 11:16:31 335

转载 GreenPlum 介绍 - client认证、限制并发、SSL连接

【设置client认证】要从远端连接GP,修改配置文件 pg_hba.conf (标准PostgreSQL host-basedauthentication文件)虽然在master和segment都存在pg_hba.conf,但是只要修改master就可以了。client只能连接master,从来不需要直连segment。pg_hba.conf的内容远端访问格式如下:local  

2016-01-18 22:00:36 1065

转载 GREENPLUM优化建议

1. 在完成大批量数据装载之后,针对目标表总是进行vacuum analyze操作。2. 表的布局:尽量把数据分布键放在最前面,如果是分区表,那么接下来是分区键,并且在此基础上建议按照数据类型宽度从大到小的顺序排列比如先8 byte的列,再4字节,再2字节。3. 数据分布键的选择:数据分布均匀是保证GP高效并行处理能力的基础。因此定义表时,如果选用HASH分布策略,保证数据分布均匀

2016-01-18 21:13:31 3561

转载 VACCUM

VACUUMNameVACUUM -- 垃圾收集以及可选地分析一个数据库SynopsisVACUUM [ FULL | FREEZE ] [ VERBOSE ] [ table ]VACUUM [ FULL | FREEZE ] [ VERBOSE ] ANALYZE [ table [ (column [, ...] ) ] ]描述VACUUM 回收已删

2016-01-18 21:09:44 600

转载 GreenPlumn数据库体系结构

GreenPlumn 数据库是基于 PostgreSQL 基础上开发,具有巨大的并行处理能力的数据仓库,MPP( massively parallel processing )是 GreenPlumn的主要特性, MPP是指服务器上拥有两个或者以上的处理节点,并且多个处理节点可以并行,协同的工作来完成一个计算, 这些处理节点拥有独自的内存,操作系统和硬盘, 处理节点可以理解成为一台物理主机。Gre

2016-01-17 10:27:29 1843

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除