Hadoop Yarn调度器的选择和使用

一、引言 Yarn在Hadoop的生态系统中担任了资源管理和任务调度的角色。在讨论其构造器之前先简单了解一下Yarn的架构。 上图是Yarn的基本架构,其中ResourceManager是整个架构的核心组件,它负责整个集群中包括内存、CPU等资源的管理;ApplicationMaster负...

2018-10-26 14:50:01

阅读数 38

评论数 0

Hadoop 2.0中单点故障解决方案总结

Hadoop 1.0内核主要由两个分支组成:MapReduce和HDFS,众所周知,这两个系统的设计缺陷是单点故障,即MR的JobTracker和HDFS的NameNode两个核心服务均存在单点问题,该问题在很长时间内没有解决,这使得Hadoop在相当长时间内仅适合离线存储和离线计算。 令人欣慰...

2018-10-26 14:48:06

阅读数 128

评论数 0

Hadoop_YARN资源管理系统源码解析

目录 一、YARN产生的背景(MRv1的局限性) 二、YARN源代码结构 三、YARN基本架构 四、YARN各模块详细分析 五、MRAppMaster-MapReduce On YARN实现 六、YarnChild-MR引擎启动入口 七、总结   一、YARN产生的背景(MRv1...

2018-10-24 14:48:00

阅读数 92

评论数 0

机器学习十大常用算法

过本篇文章可以对ML的常用算法有个常识性的认识,没有代码,没有复杂的理论推导,就是图解一下,知道这些算法是什么,它们是怎么应用的,例子主要是分类问题。 每个算法都看了好几个视频,挑出讲的最清晰明了有趣的,便于科普。 以后有时间再对单个算法做深入地解析。 今天的算法如下: 决策树 随机森林算...

2018-09-24 16:11:44

阅读数 110

评论数 0

Hadoop YARN配置参数剖析—RM与NM相关参数

 注意,配置这些参数前,应充分理解这几个参数的含义,以防止误配给集群带来的隐患。另外,这些参数均需要在yarn-site.xml中配置。   1.    ResourceManager相关配置参数   (1) yarn.resourcemanager.address   参数解释:Resou...

2018-09-04 17:06:44

阅读数 128

评论数 0

Kylin高级主题-Query引擎依赖的Calcite框架

       Calcite(https://calcite.apache.org/)是Apache的一个孵化器项目,它是一个构建JDBC或者ODBC访问数据库的框架,通过自定义一些adapter通过sql访问任意类型的数据,回想起我们之前使用SQL的场景只有使用访问关系数据库如MYSQL、ORA...

2018-08-17 11:06:57

阅读数 240

评论数 0

Kylin高级主题-Count Distinct(近似Count Distinct和精准Count Distinct)

在OLAP多维分析中,Count Distinct(去重计数)是一种非常常用的指标度量,比如一段时间内的UV、活跃用户数等等; 从1.5.3开始,Apache Kylin提供了两种Count Distinct计算方式,一种是近似的,一种是精确的,精确的Count Distinct指标在Build...

2018-08-17 10:05:26

阅读数 298

评论数 0

Kylin高级主题-Cube裁剪优化(聚合组,联合维度,层级维度,强制维度)

       随着维度数目的增加,Cuboid 的数量会爆炸式地增长。为了缓解 Cube 的构建压力,Apache Kylin 引入了一系列的高级设置,帮助用户筛选出真正需要的 Cuboid。这些高级设置包括聚合组(Aggregation Group)、联合维度(Joint Dimension)、...

2018-08-17 10:04:50

阅读数 759

评论数 0

Kylin查询引擎原理及核心源码解析

 Kylin基于MOLAP实现,查询的时候利用Calcite框架,从存储在Hbase的segment表(每一个segment对应着一个htable)获取数据,其实理论上就相当于使用Calcite支持SQL解析,数据从Hbase中读取,中间Kylin主要完成如何确定从Hbase中的哪些表读数据,如何...

2018-08-17 09:59:02

阅读数 358

评论数 0

Kylin三大引擎和Cube构建源码解析

    最近在工作中用到了kylin,相关资料还不是很多,关于源码的更是少之又少,于是结合《kylin权威指南》、《基于Apache Kylin构建大数据分析平台》、相关技术博客和自己对部分源码的理解进行了整理。 一、工作原理 每一个Cube都可以设定自己的数据源、计算引擎和存储引擎,这些设定...

2018-08-14 12:41:19

阅读数 135

评论数 0

Kylin高级主题-Cube构建算法介绍(逐层算法和快速算法)

Apache Kylin是一个开源的分布式分析引擎,提供Hadoop之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据。它能在亚秒内查询巨大的Hive表。本文将详细介绍Apache Kylin 1.5中的Fast-Cubing算法。 Fast Cubing,也称快速数据立方算法, ...

2018-08-14 12:37:41

阅读数 753

评论数 0

Kylin Cube构建引擎原理及核心源码解析

本文主要介绍了Apache Kylin是如何将Hive表中的数据转化为HBase的KV结构,并简单介绍了Kylin的SQL查询是如何转化为HBase的Scan操作。 Apache Kylin 是什么 Apache Kylin是一个开源的、基于Hadoop生态系统的OLAP引擎(OLAP查询引擎...

2018-08-14 12:07:46

阅读数 1178

评论数 0

Hadoop生态系统各个时期主要架构图

1 hadoop1.0时期架构 2 hadoop2.0时期架构 3 hdfs架构 【Active Namenode】:主 Master(只有一个),管理 HDFS 的名称空间,管理数据块映射信息;配置副本策略;处理客户端读写请求 【Secondary NameNode】:Nam...

2018-07-26 15:14:54

阅读数 1767

评论数 0

MapReduce Input Split(输入分/切片)详解

看了很多博客,感觉没有一个说的很清楚,所以我来整理一下。 先看一下这个图     输入分片(Input Split):在进行map计算之前,mapreduce会根据输入文件计算输入分片(input split),每个输入分片(input split)针对一个map任务,输入分片(inp...

2018-07-20 14:28:28

阅读数 1674

评论数 0

Hadoop1.X 与 Hadoop2.X区别及改进

一:Haddop版本介绍 0.20.x版本最后演化成了现在的1.0.x版本 0.23.x版本最后演化成了现在的2.x版本 hadoop 1.0 指的是1.x(0.20.x),0.21,0.22 hadoop 2.0 指的是2.x,0.23.x CDH3,CDH4分别对...

2017-06-13 09:59:49

阅读数 600

评论数 4

大型网站架构演变之路和知识体系[转载]

这篇文章对于想了解大型网站是怎样一步一步架构起来的人说,还是挺好的,特转载,原文:http://www.uml.org.cn/zjjs/201306263.asp 之前我简单向大家介绍了各个知名大型网站的架构,亿万用户网站MySpace的成功秘密、Flickr架构、YouTube网站架构...

2016-09-19 18:08:46

阅读数 317

评论数 0

HadoopMapReduce源码解析

Hadoop是一个大数据处理平台,目前在大数据领域应用也非常广泛,刚好最近我们BI组在进行把底层数据仓库迁移到Hadoop平台并且当前BI的数据平台已经深度依赖Hadoop平台,所以在工作之余开始去深入了解下Hadoop内部实现以更好地应用它,在遇到问题的时候有更好的解决思路。本文详细介绍了Had...

2015-10-11 21:27:28

阅读数 460

评论数 0

HadoopHDFS源码解析

HDFS即Hadoop Distributed File System分布式文件系统,它的设计目标是把超大数据集存储到分布在网络中的多台普通商用计算机上,并且能够提供高可靠性和高吞吐量的服务。分布式文件系统要比普通磁盘文件系统复杂,因为它要引入网络编程,分布式文件系统要容忍节点故障也是一个很大的挑...

2015-10-11 21:26:29

阅读数 605

评论数 0

HadoopRPC源码解析

Hadoop是一个大数据处理平台,目前在大数据领域应用也非常广泛,刚好最近我们BI组在进行把底层数据仓库迁移到Hadoop平台,所以在工作之余开始去深入了解下hadoop内部实现以更好地应用它,在遇到问题的时候有更好的解决思路。本篇分享先介绍Hadoop领域中RPC框架的实现原理,后续会继续分析H...

2015-10-11 21:20:02

阅读数 2126

评论数 0

Tomcat7源码解析

Tomcat7 源码阅读学习     背景     Tomcat源码目录结构     Tomcat体系结构     Tomcat源码解析           Tomcat的启动流程           Tomcat一次完整请求的处理流程           Tomcat的关闭流程         ...

2015-03-27 15:42:20

阅读数 6384

评论数 7

提示
确定要删除当前文章?
取消 删除
关闭
关闭