博客专栏  >  综合   >  Hadoop 生态圈组件原理和性能调优介绍

Hadoop 生态圈组件原理和性能调优介绍

介绍hadoop生态圈各个组件:flume,kafka,hdfs,yarn,hbase,spark等组件的原理,配置调优,开发调优

关注
2 已关注
11篇博文
  • kafka leader选举机制原理

    kafka在所有broker中选出一个controller,所有Partition的Leader选举都由controller决定。controller会将Leader的改变直接通过RPC的方式(比Zo...

    2017-02-06 17:22
    2659
  • HDFS fsimage和edits合并实现原理

    1. Hadoop 1.x 版本 fsimage和edits合并实现原理  在NameNode运行期间,HDFS的所有更新操作都是直接写到edits中,久而久之edits文件将会变得很大;虽然这对Na...

    2017-01-22 17:25
    559
  • HDFS 2.0 HA实现原理

    在Hadoop2.0.0之前,NameNode(NN)在HDFS集群中存在单点故障(single point of failure),每一个集群中存在一个NameNode,如果NN所在的机器出现了故...

    2017-01-22 17:20
    274
  • HDFS 内部机制

    1. 写流程 2.读流程 3.副本放置策略 4.可靠性策略 5.HDFS数据块 6.HDFS 不适合小文件存储

    2017-01-22 17:14
    324
  • HDFS 优缺点

    HDFS优点: 高容错性:数据自动保存多个副本,副本丢失后,自动恢复适合批处理:移动计算而飞数据。数据位置暴露给计算框架适合大数据处理:GB,TB,设置PB级数据。百万规模以上文件数量。10...

    2017-01-22 16:59
    712
  • HDFS 架构

    2.X 版本的HDFS 架构图如下: Active Namenode: 主Master(只有一个) 管理HDFS的命名空间(name space) 管理数据块映射信息 配置副...

    2017-01-22 16:46
    338
  • Yarn 架构

    yarn 基本架构 Resource Manager Application master node manager container  history server ...

    2017-01-22 11:48
    296
  • Yarn 资源调度器

    Yarn的资源调度目前支持内存和CPU两种资源。 Yarn支持三种调度方式:FIFO、FAIR和DRF分别是指先来先服务、公平调度和主资源公平调度 FIFO:先按照优先级高低调度,如果优先...

    2017-01-20 19:20
    722
  • Apache kafka 中zookeeper 的应用

    正如ZooKeeper用于分布式系统的协调和促进,Kafka使用ZooKeeper也是基于相同的原因。ZooKeeper用于管理、协调Kafka代理。每个Kafka代理都通过ZooKeeper协调其它...

    2017-01-19 15:09
    371
  • Apache kafka 设计与实现

    一、 设计  kafka设计目标是实现一个高吞吐量的,低延迟的,实时数据处理的统一平台。在设计的时候从以下几个方面做了优化。 1. 数据持久化 Kafka直接将数据写到了文件系统的日志中,依赖操作系统...

    2017-01-18 12:06
    407
  • Apache kafka 架构与功能

    Apache Kafka是分布式发布-订阅消息系统。它最初由LinkedIn公司开发,之后成为Apache项目的一部分。Kafka是一种快速、可扩展的、设计内在就是分布式的,分区的和可复制的提交日志...

    2017-01-17 10:57
    430
img博客搬家
img撰写博客
img专家申请
img意见反馈
img返回顶部