CristianT-CSDN博客

原创 ResourceManager GC

ResourceManager GCGC，指Garbage Collection 是JAVA/.NET中的垃圾收集器。现象在系统运行高峰期，YARN的RM无法登录或登录界面现实特别慢。应用执行也特别慢。分析与解决方案根据经验，系统RM无法登录，那么有可能是RM进程有问题，所以查看RM进行日志。查看RM的GC日志resourcemanager-omm-201702

2017-02-18 15:00:38 2907

原创问题分析报告--读取ORC文件报seek错误

问题分析报告--读取ORC文件报seek错误1、问题描述1.1 基本信息[Basic Information]集群规模：37+3台物理机，每台128G内存；CPU：2*16C；SATA磁盘，2T*12hadoop社区版本：**商业版本：FusionInsight_HD_V100R002C60U10MetaStore：高斯数据库（Postgresql）1.2

2016-11-12 14:53:29 1164

原创问题分析报告--DBService备份问题

1、问题描述1.1 基本信息[Basic Information]集群规模：37+3台物理机，每台128G内存；CPU：2*16C；SATA磁盘，2T*12hadoop社区版本：**商业版本：FusionInsight_HD_V100R002C60U10MetaStore：高斯数据库（Postgresql）1.2 问题描述[Problem Description]hive任

2016-11-12 14:50:43 1219

原创问题分析报告--简单SQL启动MR

1、问题描述1.1 基本信息[Basic Information]集群规模：37+3台物理机，每台128G内存；CPU：2*16C；SATA磁盘，2T*12hadoop社区版本：**商业版本：FusionInsight_HD_V100R002C60U10MetaStore：高斯数据库（Postgresql）1.2 问题描述[Problem Description]10月24

2016-11-12 14:48:45 776

原创问题分析报告--在压力场景下OS在某种硬件环境下的性能可能会下降90%的问题

1、问题描述1.1 基本信息[Basic Information]集群规模：37+3台物理机，每台128G内存；CPU：2*16C；SATA磁盘，2T*12hadoop社区版本：**商业版本：FusionInsight_HD_V100R002C60U10MetaStore：高斯数据库（Postgresql）1.2 问题描述[Problem Description]本问题属于

2016-11-12 14:46:04 621

原创问题分析报告--压力环境下运行缓慢

问题分析报告--压力环境下运行缓慢1、问题描述1.1 基本信息[Basic Information]集群规模：37+3台物理机，每台128G内存；CPU：2*16C；SATA磁盘，2T*12hadoop社区版本：**商业版本：FusionInsight_HD_V100R002C60U10MetaStore：高斯数据库（Postgresql）1.2 问题描述[

2016-11-06 13:39:18 372

原创问题分析报告--Hive表列属性更新慢并偶尔更新失败

问题分析报告--Hive表列属性更新慢并偶尔更新失败1、问题描述1.1 基本信息[Basic Information]集群规模：37+3台物理机，每台128G内存；CPU：2*16C；SATA磁盘，2T*12hadoop社区版本：**商业版本：FusionInsight_HD_V100R002C30LCN001SPC005MetaStore：高斯数据库（Post

2016-11-06 13:38:01 4871

原创 Hive参数

命名空间使用权限描述hivevar可读/可写用户自定义变量hiveconf可读/可写Hive相关的配置属性system可读/可写java定义的配置属性env只可读shell环境定义的环境变量set；set -v；SET（不带-v）打印出命名空间hivevar，hiveco

2016-10-20 23:49:34 409

原创 JOIN详解

JOIN详解SQL中JOIN有多种：JOIN、INNER JOIN、FULL JOIN、FULL OUTER JOIN、LEFT JOIN、LEFT OUTER JOIN、RIGHT JOIN、LEFT OUTER JOIN。同时不还要注意ON ，WHERE等条件使用。注：1、只有 FULL JOIN 完全强制连接顺序2、大多数 LEFT JOIN 或 RI

2016-10-20 23:47:22 1014

原创 Hive优化--定位调优指导

1.1. 日志搜集 1.1.1. HiveServer日志获取Hive调优需要看HiveServer的运行日志及GC日志。HiveServer日志路径为：HiveServer节点的/var/log/Bigdata/hive/hiveserver/。文件名日志内容hive.logHiveServer运行日志

2016-10-20 23:42:56 2837

原创 Hive优化--关键参数及HQL案例

1. 关键参数及HQL案例1.1. 当输入数据量较大时减小Map处理的最大数据量已知表midsrc有1.5亿条记录，如下：分别设置map处理最大数据量为1024000000、512000000、256000000、128000000观察以下语句的执行情况。统计信息如下：Map处理的最大数据量Mapper数执行时长（

2016-10-20 23:41:51 1460 1

原创 Hive优化--关键参数配置指导

1. 关键参数配置指导1.1. Container内存相关

2016-10-20 23:40:16 6089

原创 Hive调优的目标、原则及手段

1. Hive调优的目标、原则及手段1.1. 调优目标Hive调优的目标是在不影响其他业务正常运行的前提下，最大限度利用集群的物理资源，如CPU、内存、磁盘IO，使其某一项达到瓶颈。如下CPU接近瓶颈： 1.2. 调优原则（1）保证map扫描的数据量尽量少减少map端扫描数量，需要控制待处理的表文件或中间文件的数据量尽量少。优化的方式如：Hiv

2016-10-20 23:36:56 1917

原创 Hive优化--分区表与分桶表

1. 根据业务特征创建分区表使用分区表能有效地分隔数据，分区条件作为查询条件时，减少扫描的数据量，加快查询的效率。如果业务数据有明显的时间、区域等维度的区分，同时有较多的对应维度的查询条件时，建议按照相应维度进行一级或多级分区。2. 根据业务特征创建分桶表分桶的目的是便于高效采样和为Bucket MapJoin及SMB Join做数据准备。对于Hive表有按照某

2016-10-20 23:34:43 2106

原创 Hive优化--文件压缩格式

1.1. Hive表文件及中间文件使用合适的文件压缩格式GZip和Snappy，这两种压缩算法在大数据应用中最常见，适用范围最广，压缩率和速度都较好，读取数据也不需要专门的解压操作，对编码来说透明。压缩率跟数据有关，通常从2到5不等；两种算法中，GZip的压缩率更高，但是消耗CPU更高，Snappy的压缩率和CPU消耗更均衡。对于存储资源受限或客户要求文件必须压缩的场景，

2016-10-20 23:32:28 456

原创 Hive优化--文件格式

1. Hive调优前相关规划设计Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供Hive SQL（简称HQL）查询功能，可以将HQL语句转换为MapReduce、Tez、Spark任务运行。本文仅讨论Hive on MapReduce的性能调优场景。在进行Hive参数调优和SQL调优之前，要进行相应的规划设计，包括：Hive表使用高效

2016-10-20 23:30:47 733

原创获取gp表结构的函数

说明：此函数可以获取二级分区表以内的表结构，里面添加了一些关键字过滤，可能不全，遇到时可自行添加用法：select get_gp_create_sql('schemaname.tablename')-- Function: public.get_gp_create_sql(text)-- DROP FUNCTION public.get_gp_create_sql(te

2016-10-20 23:26:13 3824

原创 Greenplum中内存设置不合理导致的报错

现象：以下2个案例：1.RPSM_TRADE_INFO_NLC这个脚本的 560行报错脚本中写法： DELETEFROM $RPSM_SCH.RPSM_TRADE_INFO O USING TEMP_RPSM_TRADE_INFO_NLC_YXLC_PRE N WHEREN.TRANS_SID = O.TRA

2016-10-20 23:25:30 9704

原创表关联优化方法分享

在数据库中，表与表之间的关联，通过JOIN连接。可以理解为“横向关联”，如果是多个大表，“横向关联”，效率比较慢； “纵向关联”：UNION每个表，再GROUPBY去重，得到“关联”的效果。“纵向关联”效率比“横向关联”强很多。举例：T1，T2，T3，T4，T5，每个表有5000万条数据。“横向关联”： JOIN关联，实际是5000万*5000万*5000万*5000万*5000万，实

2016-06-11 23:01:26 1296

原创 ubuntu 15.10下设置静态IP地址

ubuntu 15.10下设置静态IP地址

2016-01-30 23:08:41 1949

原创 Linux下管理用户

Linux下用户管理

2016-01-30 11:16:31 378

转载 GreenPlum 介绍 - client认证、限制并发、SSL连接

【设置client认证】要从远端连接GP，修改配置文件 pg_hba.conf (标准PostgreSQL host-basedauthentication文件)虽然在master和segment都存在pg_hba.conf，但是只要修改master就可以了。client只能连接master，从来不需要直连segment。pg_hba.conf的内容远端访问格式如下：local

2016-01-18 22:00:36 1197

转载 GREENPLUM优化建议

1. 在完成大批量数据装载之后，针对目标表总是进行vacuum analyze操作。2. 表的布局：尽量把数据分布键放在最前面，如果是分区表，那么接下来是分区键，并且在此基础上建议按照数据类型宽度从大到小的顺序排列比如先8 byte的列，再4字节，再2字节。3. 数据分布键的选择：数据分布均匀是保证GP高效并行处理能力的基础。因此定义表时，如果选用HASH分布策略，保证数据分布均匀

2016-01-18 21:13:31 3688

转载 VACCUM

VACUUMNameVACUUM -- 垃圾收集以及可选地分析一个数据库SynopsisVACUUM [ FULL | FREEZE ] [ VERBOSE ] [ table ]VACUUM [ FULL | FREEZE ] [ VERBOSE ] ANALYZE [ table [ (column [, ...] ) ] ]描述VACUUM 回收已删

2016-01-18 21:09:44 663

转载 GreenPlumn数据库体系结构

GreenPlumn 数据库是基于 PostgreSQL 基础上开发，具有巨大的并行处理能力的数据仓库，MPP( massively parallel processing )是 GreenPlumn的主要特性， MPP是指服务器上拥有两个或者以上的处理节点，并且多个处理节点可以并行,协同的工作来完成一个计算，这些处理节点拥有独自的内存,操作系统和硬盘, 处理节点可以理解成为一台物理主机。Gre

2016-01-17 10:27:29 1903

点点滴滴一世界