大数据相关学习笔记

本文深入探讨Hadoop作为海量数据存储与计算框架的核心角色,包括HDFS分布式文件系统及MapReduce计算模型的工作原理。同时对比Spark与Flink等新一代计算框架的优势,如弹性数据集管理和更快的计算速度。
摘要由CSDN通过智能技术生成

hadoop

  1. 整体定位:是一个用来存储计算海量数据的框架,核心是HDFS+MapReduce

    1. HDFS:分布式文件系统。引入了存放文件元数据信息的服务器Namenode和实际存放数据的服务器Datanode,对数据进行分布式储存和读取

    一个形象的比喻:一个分布式的,有冗余备份的,可以动态扩展的用来存储大规模数据的大硬盘

    1. MapReduce: 计算框架。核心思想是把大任务分成小任务给集群内的服务器执行。其中用Map+Reduce这俩过程对任务进行拆分

    一个计算引擎,按照MapReduce的规则编写Map计算/Reduce计算的程序,可以完成计算任务

  2. 一些相关的概念

    1. Data Node:每台机器上都会运行一个dataNode以管理机器上的磁盘,这样很多机器就组成了分布式文件系统
    2. Node Manager:管理机器上的计算资源(CPU+内存)
    3. Name Node:运行于主节点上,与每台机器上的Data Node通信,维护元信息,从而形成大的分布式文件系统
    4. Resource Manager:主节点,与Node Manager通信,了解各个机器目前运行的任务的情况,从而维护了整个集群的分布式计算

yarn

  1. 概念:是一个资源管理系统
  2. 功能步骤:
    1. client提交作业给Resource Manager
    2. RM会在Node Manager中选一台作为App Master运行主进程
    3. App Master会向RM请求资源。。。后面就不懂了,再议

MapReduce

  1. 概念:是一个计算框架
  2. 结构:认为一个计算就分为map+reduce这两步。复杂任务用多个MapReduce串联起来,形如Map->Reduce->Map->Reduce
  3. 详解:
    1. map:搞一个list[map<key,value>]出来
    2. shuffling:根据map结果的key来哈希一波放到对应的机器上,把map的结果变为了map<key,list[value]>,从而key相同的肯定放一台机器上了
    3. reduce:合在一起进行最后的计算变成,map<key,res>
  4. 例子

Spark

  1. 概念:另一个计算框架
  2. 优点
    1. 弹性数据集
    2. 数据在内存中丢了可以恢复
    3. 函数式编程
    4. 速度比MR快

flink

  1. TBD
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值