耀扬仔-CSDN博客

转载 Presto查询优化

一、数据存储合理设置分区与Hive类似，Presto会根据元信息读取分区数据，合理的分区能减少Presto数据读取量，提升查询性能。使用列式存储Presto对ORC文件读取做了特定优化，因此在Hive中创建Presto使用的表时，建议采用ORC格式存储。相对于Parquet，Presto对ORC支持更好。使用压缩数据压缩可以减少节点间数据传输对IO带宽压力，对于即席查询需要快速解压，建议采用sna...

2018-03-26 20:34:24 1322

转载 Storm概念、原理详解

Storm框架：上面这幅图是Stom框架图，和很多分布式系统一样，基于zk作为集群配置运行的元数据基础平台。nimbus和supervisor是服务器端守护进程，守护进程的文章会在Storm概念、原理详解及其应用（二）Storm Cluster。以下是对启动一个应用所需要的集群上JVM进程线程的简单介绍，建议记忆后再继续阅读。· Nodes （服务器）：指配置在一个 Storm 集群中的服务器，会...

2018-03-26 19:40:23 372

转载 Durid原理架构

Druid简介Druid是一个为在大数据集之上做实时统计分析而设计的开源数据存储。这个系统集合了一个面向列存储的层，一个分布式、shared-nothing的架构，和一个高级的索引结构，来达成在秒级以内对十亿行级别的表进行任意的探索分析。互联网技术的快速增长催生了各类大体量的数据，Hadoop很大的贡献在于帮助企业将他们那些低价值的事件流数据转化为高价值的聚合数据，这适用于各种应用但Hadoop擅...

2018-03-26 18:31:33 676

转载 Presto实现原理

Presto架构Presto查询引擎是一个Master-Slave的架构，由一个Coordinator节点，一个Discovery Server节点，多个Worker节点组成，Discovery Server通常内嵌于Coordinator节点中。Coordinator负责解析SQL语句，生成执行计划，分发执行任务给Worker节点执行。Worker节点负责实际执行查询任务。Worker节点启动后...

2018-03-26 16:44:28 1129

转载 Spark基本架构及原理

架构及生态：通常当需要处理的数据量超过了单机尺度(比如我们的计算机有4GB的内存，而我们需要处理100GB以上的数据)这时我们可以选择spark集群进行计算，有时我们可能需要处理的数据量并不大，但是计算很复杂，需要大量的时间，这时我们也可以选择利用spark集群强大的计算资源，并行化地计算，其架构示意图如下：Spark Core：包含Spark的基本功能；尤其是定义RDD的API、操作以及这两者上...

2018-03-26 14:51:00 236

转载 MapReduce原理和运行流程详解

一、概述MapReduce的设计理念源自于Google的MapReduce论文（发表于2004年12月），Hadoop MapReduce是Google MapReduce克隆版。MapReduce采用”分而治之”的思想，把对大规模数据集的操作，分发给一个主节点管理下的各个分节点共同完成，然后通过整合各个节点的中间结果，得到最终结果。简单地说，MapReduce就是”任务的分解与结果的汇总”。Ma...

2018-03-25 23:39:53 839

转载 Hive SQL执行计划解析

MapReduce实现基本SQL操作的原理详细讲解SQL编译为MapReduce之前，我们先来看看MapReduce框架实现SQL基本操作的原理Join的实现原理select u.name, o.orderid from order o join user u on o.uid = u.uid;在map的输出value中为不同表的数据打上tag标记，在reduce阶段根据tag判断数据来源。Map...

2018-03-23 13:58:35 621

转载 Yarn 内存分配管理机制及相关参数配置

一、相关配置情况关于Yarn内存分配与管理，主要涉及到了ResourceManage、ApplicationMatser、NodeManager这几个概念，相关的优化也要紧紧围绕着这几方面来开展。这里还有一个Container的概念，现在可以先把它理解为运行map/reduce task的容器，后面有详细介绍。 1.1 RM的内存资源配置, 配置的是资源调度相关RM1：yarn.schedule...

2018-03-23 10:34:54 252

转载 Yarn相关参数配置

一、相关配置情况关于Yarn内存分配与管理，主要涉及到了ResourceManage、ApplicationMatser、NodeManager这几个概念，相关的优化也要紧紧围绕着这几方面来开展。这里还有一个Container的概念，现在可以先把它理解为运行map/reduce task的容器，后面有详细介绍。 1.1 RM的内存资源配置, 配置的是资源调度相关RM1：yarn.schedule...

2018-03-22 23:26:23 557

转载 YARN资源管理的最佳实践

本博客文章涵盖了有关YARN资源管理的以下主题，并为每个主题提供了最佳实践：1：Warden如何计算和分配资源给YARN？2：YARN中的最小和最大分配单位3：虚拟/物理内存检查器4：Mapper，Reducer和AM的资源请求5：瓶颈资源1.1：Warden如何计算和分配资源给YARN？在一个MapR Hadoop集群，Warden设置操作系统，MapR-FS，MapR Hadoop服务和Map...

2018-03-22 23:23:32 446

转载 YARN框架和原理

yarn概念YARN是Hadoop2.0版本引进的资源管理系统，直接从MR1演化而来。核心思想：将MR1中的JobTracker的资源管理和作业调度两个功能分开，分别由ResourceManager和ApplicationMaster进程实现。ResourceManager：负责整个集群的资源管理和调度ApplicationMaster：负责应用程序相关事务，比如任务调度、任务监控和容错等。...

2018-03-22 23:01:03 234

u012452705的博客