tomson8975-CSDN博客

原创 Yarn作业提交流程及RMApp状态机介绍

主要的几个状态机流程图：

2015-08-08 22:05:47 655

原创 nodemanager localizer进程泄漏问题

这个问题的现象是在mr程序中经常有map task的状态处于new,该状态表示container已经分配，但是还未启动起来，在这中间的状态是在执行localizing，即下载资源。一般这个过程不会持续很久，但是在监控界面上看到一个nodemanager上处于localizing状态的container长期达到半数以上。然后在这个机器上执行jps发现运行的YarnChild进程只有10个，正

2017-02-08 19:50:56 643

原创 Nodemanager堆内内存泄漏问题记录

一.问题发现：发现nm堆内存使用率过高： Nodemanager堆内内存泄漏问题记录 > image2016-12-8 15:47:0.png" src="http://10.39.0.109:8090/download/attachments/1052454/image2016-12-8%2015%3A47%3A0.png?version=1&modificationDate=1

2017-02-08 12:26:07 2514 1

原创 Spark shuffle-write原理分析

2017-02-08 12:17:34 463

原创队列得不到资源分配问题

常常发生队列得不到资源的情况，即使没有达到fairshare阈值。基础知识准备：首先，需要了解fairscheduler的调度原则是什么样的：1.首先，判断有没有达到minshare。2.其次判断minshare/权重比大小。3.再判断使用量/权重比大小。队列得不到资源分配问题 > image2017-1-5 21:15:15.png" class

2017-02-08 12:14:51 1717

原创 Hadoop 2.x hdfs（热/冷）升级步骤

热升级步骤1.执行一次fsck，记录文件情况与升级后的fsck情况对比。 —— ./bin/hadoop fsck / -files -blocks -locations > dfs-v-old-fsck-1.log ./bin/hadoop dfs -lsr / > dfs-v-old-lsr-1.log ./bin/had

2016-09-02 11:06:23 1151

原创 Yarn 2.8.x 基于标签的调度

前言：基于标签的调度解决的核心需求是实现部分资源的完全隔离，以及由此基础之上的各个资源池之间的资源互助，最终达到隔离并且弹性的计算形态。该特性开发现状：最新版本2.8.x： 1.不支持标签表达式，如：&&,|,* 2.资源共享方式不实用，如：2.

2016-09-02 11:05:01 4513

原创 Greenplum性能调试记录

前言：以目前的使用体验的话，Greenplum（以下简称GP）的实时性确实比较高，从存储层到计算层，数据吞吐效率比类Hadoop生态圈的sql工具要好得多。伴随性能的提升，同时加深的是gp对硬件的要求。就目前的GP集群的硬件配置情况来说： 5台22线程，64G内存，2T硬盘，千兆网卡机器（整体情况是110

2016-07-29 14:05:48 17627 1

原创 Tez不能找到压缩类问题

为提高程序处理效率添加了set mapreduce.map.output.compress=true;set mapreduce.map.output.compress.codec=org.apache.hadoop.io.compress.SnappyCodec;这样会导致tez程序报错，具体错误如下： TaskAttempt 3 failed, info=[Error: F

2016-07-29 14:02:22 1665

原创 Tez上线部署记录

前言： Tez在Hive 0.13.0版本引入，全称Hive on Tez。顾名思义就是基于Tez之上的运行Hive作业的形式。具体Tez是什么？Tez是一种运算框架，MapReduce是一种运算框架，这么说应该懂了。更具体的讲，Tez是一种内存运算框架，类似Spark的核心——RDD。正如刚才提到的Tez类似RDD的特性，适用于DAG运算，多

2016-07-29 13:59:25 2671

原创 Spark on Yarn简介

Spark基本配额介绍：每个executor （2cpu,10G)常用参数介绍：spark.shuffle.memoryFraction 0.5默认是0.5，是指在shuffle阶段用于shuffle的内存配比线上配置是0.7 spark.storage.memoryFraction 0.5默认是

2015-10-28 10:46:01 545

原创 where top1000(X)<=10等条件谓词提前问题记录

今天，遇到这样一个问题，在下面sql中：add jar /opt/hadoop/yuanfeng/bdiudf.jar; create temporary function top1000 as 'com.bfd.id.Id'; select a.state_date,a.customer,

2015-10-28 10:40:32 653

原创 UDFJson反斜杠解析出错记录

这个类在org.apache.hadoop.hive.ql.udf包下，使用org.codehaus.jackson三方库解析Json字符串。具体在Hive udf中的名字叫get_json_object。当json字符串中有反斜杠"\"时，解析会出错如：{"title":"思科Q4收入估$79.2亿前景阴云笼罩","ItemType":"NewsBa

2015-10-28 10:39:50 1003

原创 Hive参数配置以及HQL编写技巧

前言本文的意图在于根据常见hive作业运行场景，介绍hive以及hadoop的参数设置方法。 Group by数据倾斜：如果需要group by的字段有一个值或一些值出现的频率很高：可以用hive.groupby.skewindata参数平衡数据。 Map,Reduce数控制：

2015-10-28 10:38:22 1113

原创 HIVESERVER2 HA配置及使用（java）

原理： 1.1 每个hiveserver2的实例启动的时向指定的zk namespace注册自己的信息主要是HOSTNAME:PORT 1.2 client 连接的时候首先向zk 随机获取HOSTNAME:PORT，然后建立连接。开始执行hive操作架构：配置： 3.1 修改hive-site.xml配置文件：增加以下配置

2015-10-28 10:35:48 3350 1

原创 Hiveserver2配置及优化

先简单介绍下HS1和HS2的主要区别： HiveServer1: 可以看到HS的进程和MetaStore的进程是在一个虚拟机里面的，而且从图中可以看出，一个HS服务同时只能提供一个访问连接。 HiveServer2: H

2015-10-28 10:34:45 7676

原创 Hive HBase集成

1.版本 hive0.14 hbase0.99.22.编译由于hive0.14版本不支持hbase0.99.2，所以需要对hive源码中的hbase-handler模块中的相关类做修改，重新编译。2.1 修改 /hbase-handler/src/java/org/apache/hadoop/hive/hbase/HBaseStorage

2015-10-28 10:33:50 519

原创 MapRed程序map个数控制分析

前言：我们在线上跑的MapRed程序和Hive程序，Map数到底怎么控制？这个问题一直比较模糊，这次有机会深入代码里面去看，才了解到其实MapReduce针对不同输入格式有不同的判断文件大小的规则以及文件切片和合并的方式。下面就来具体了解一下FileInputFormat和CompositeInputFormat两种主流输入格式的处理细节。首先在这里提一下MapRe

2015-10-28 10:31:51 3313

原创 Hadoop Streaming使用简介

示例：$HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/hadoop-streaming.jar \ -input myInputDirs \ -output myOutputDir \ -mapper org.apache.hadoop.mapred.lib.IdentityMapper \ -reducer /bin/wc

2015-10-28 10:29:09 335

原创 dfs.datanode.max.xcievers&dfs.datanode.max.transfer.threads介绍

前言：这篇文章主要是介绍这个参数是什么意思，他的作用和估值的参考方法。（参考自：http://blog.cloudera.com/blog/2012/03/hbase-hadoop-xceivers/） (dfs.datanode.max.xcievers和dfs.datanode.max.transfer.threads都是指的一个参数不过前者是

2015-08-10 11:34:23 9873

原创 Hive0.14在left outer join多级连接中，执行计划生成BUG记录

前言：这几天遇到一个很诡异的问题，一个三级left outer join的句子，在hive0.9和0.14上的执行结果会不一样。而且在0.14上通过转换右表连接的顺序可以达到正确输出的目的，但是其中是为什么却不得而知，情况非常诡异，猜测是编译器编译执行计划有问题！（所谓转换右表连接顺序是指把A left outer join

2015-08-08 21:59:03 737

原创 DataNode上执行文件读写时报java.io.IOException: Bad connect ack with firstBadLink as 192.168.X.X错误解决记录

今天在集群上看到有两个任务跑失败了： Err log:In order to change the average load for a reducer (in bytes):set hive.exec.reducers.bytes.per.reducer=In order to limit the maximum number of reducers:

2015-08-08 21:57:27 5474

原创 Hdfs本地短路读取文件

本地短路读取文件：dfs.client.read.shortcircuit=true;#开启本地磁盘读dfs.block.local-path-access.user=hdfs#可以使用本地读的用户dfs.client.read.shortcircuit.skip.checksum=false#是否跳过checksumdfs.client.read.shortc

2015-08-08 21:55:58 776

原创 Hive配置优化

MapJoin基本的几种方式： Common Mapjoin： hive.ignore.mapjoin.hint=true;#虽然现在可以自动转化mapjoin，但还是建议设成true，可以在需要特殊处理人为转化为mapjoin。 hive.auto.convert.join=true; hive.mapjoin.smalltable.filesize=2

2015-08-08 21:54:14 684

原创 Hive0.14数据存储优化

1.hive数据存储优化 1>对于需要经常连接查询的表一定要建立分区和桶。分区的意义在于列裁剪数据，桶的意义在于并行计算（因为用来做桶的列通过hash后分布在各自桶里，在连接时并行进行桶与桶之间的连接即可。（ORC格式的stripes文件同样有这个功能后面讲到））要使用以上这个特性需要在建表时构建表的分区结构和分桶结构。这个行为发生在数据存储环节。

2015-08-08 21:53:01 417

原创 Hive客户端多并发问题解决方法记录

问题出现场景：如用户描述：（测试脚本如下:echo " set hive.exec.dynamic.partition=true; set hive.exec.dynamic.partition.mode=nonstrict;set hive.optimize.sort.dynamic.partition=false;set hive.exec.max.dyn

2015-08-08 21:50:43 2796

原创 MapReduce作业内调度研究

这篇文章主要介绍在作业内，Map,reduce是怎样调度的，Map，Reduce的生命周期是什么样，分配优先级和抢占策略等。

2015-08-08 21:35:03 381

tomson8975的博客