- 博客(6)
- 资源 (4)
- 收藏
- 关注
转载 HDP学习--Managing HDFS Storage(01)
一、 NameNode的持久化信息 为了提高性能, HDFS文件系统的当前状态保持在NameNode的内存中, 当用户或程序请求文件系统的信息都由NameNode内存提供。当有Client对文件系统有修改操作,必须要更新NameNode内存中的文件系统状态。 虽然内存的速度很快,但是也是不稳定的, 如果硬件或电源故障导致HDFS文件系统的状态的丢失,为了恢复,会定期的将内存中的文件系统的状态...
2018-05-27 19:35:41
453
转载 HDFS的工作流程分析
HDFS的工作机制概述HDFS集群分为两大角色:NameNode、DataNodeNameNode负责管理整个文件系统的元数据DataNode 负责管理用户的文件数据块文件会按照固定的大小(blocksize)切成若干块后分布式存储在若干台datanode上每一个文件块可以有多个副本,并存放在不同的datanode上Datanode会定期向Namenode汇报自身所保存的文件block信息,而na...
2018-05-27 19:07:35
1408
转载 解Bug之路:记一次JVM堆外内存泄露Bug的查找
行业前列百家号01-1516:30前言JVM的堆外内存泄露的定位一直是个比较棘手的问题。此次的Bug查找从堆内内存的泄露反推出堆外内存,同时对物理内存的使用做了定量的分析,从而实锤了Bug的源头。由于物理内存定量分析部分用到了linux kernel虚拟内存管理的知识,读者如果有兴趣了解请看ulk3(《深入理解linux内核第三版》)内存泄露Bug现场一个线上稳定运行了三年的系统,从物理机迁移到d...
2018-05-24 14:59:18
5337
1
转载 Yarn下MapReduce部分参数理解
0. 写在前面部分原文来自 support.pivotal.io 的翻译,对于该篇文章中感觉概念模糊不清的地方我做了修正,并扩充了我自己的部分理解,有不正确的地方还望大家指正1. Container是什么Yarn Container就是一个yarn的java进程(这里容易被误解成类似Linux Container的概念),在Mapreduce中的AM,MapTask,ReduceTask, spa...
2018-05-21 20:06:26
331
转载 MapReduce过程详解及其性能优化
废话不说直接来一张图如下:从JVM的角度看Map和ReduceMap阶段包括:第一读数据:从HDFS读取数据1、问题:读取数据产生多少个Mapper?? Mapper数据过大的话,会产生大量的小文件,由于Mapper是基于虚拟机的,过多的Mapper创建和初始化及关闭虚拟机都会消耗大量的硬件资源; Mapper数太小,并发度过小,Job执行时间过长,无法充分利用分布式硬件资源;2、Ma...
2018-05-21 20:04:08
271
转载 Hive获取查询日志的问题解析
需求背景最近这段时间一直在做数据查询系统的需求,最近接到一个需求:因为HIVE查询一般需要比较久的查询时间,这期间查询人员需要知道查询的进度,需要在界面上进行进度的展示。探路过程我们查询系统连接HIVE使用的是标准的JDBC接口,在标准的JDBC接口中并没有提供这样的一个获取查询日志的接口。翻阅了很多的资料后发现其实在HIVE Server的Thrift接口中是有提供这样的接口的:1234...
2018-05-12 11:44:23
4845
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人