大数据
Supernova777
这个作者很懒,什么都没留下…
展开
-
大数据学习笔记整理之MapReduce工作原理
MapReduce主要分为三个阶段,Map阶段,Shuffle阶段,Reduce阶段。 Map阶段: 将输入的多个分片(Split)有Map任务以完全并行方式进行处理。一个分片对应一个map任务,在默认的情况下,分片的大小与HDFS中数据块(Block)大小一致,可以通过调整HDFS中block的大小来控制map的任务数量。 每个Map任务对输入分片中的数据按照一定的规则解析成多个KV键值对,默认是把每一行文本内容解析成一个KV键值对,key为每一行的其实位置,即每一行的偏移量,value为本行的文本内容原创 2020-09-28 11:52:39 · 258 阅读 · 0 评论 -
HBase架构
了解HBase HBase是一个高可靠性,高性能,面向列,可伸缩的分布式存储系统。 HBase架构 HBase采用Master/Slave架构搭建集群,由HMaster,HRegionServer,Zookeeper组成,讲数据存储在HDFS中。HMaster主要负责利用Zookeeper为HRegionServer分配HRegion。Zookeeper是一个高可靠,高可用,持久化的分布式协调系统。Client使用HBase的远程过程调用协议(Remote Procedure Call Protocol,原创 2020-09-21 23:08:37 · 134 阅读 · 0 评论 -
kafka 架构以及保证数据不丢失
kafka架构 kafka基本组成 kafka集群中生产者将消息发送给Topic命名的消息队列Queue中,消费者订阅发送以某个Topic命名的消息队列Queue中的消息。 Broker: 一台kafka服务器就是一个broker,一个集群中由多个broker组成,一个Broker可以容纳多个Topic,Broker和Broker之间是平级的。 Topic:每条发送到Kafka集群的消息都属于某个主题,这个主题就称为Topic。 Partition:一个Topic可以被分为多个Partition原创 2020-09-14 10:30:10 · 144 阅读 · 0 评论 -
hadoop yarn里面的基本架构
yarn的基本架构 yarn的基本思想是讲JobTracker的资源管理和作业调/监控两大主要职能拆分为两个独立的进程:一个是全局的Resource Manager(RM),以及一个每个应用对应的Application Master(AM), Resource Manager(RM)和每个节点上的Node Manager(NM)组成了一个全新的通用操作系统,以及一个分布式的方法管理应用程序 Resource Manager拥有系统所有应用分配资源的决定权, 其中RM有一个可插拔的调度组件Scheduler原创 2020-09-02 22:58:35 · 368 阅读 · 0 评论