hadoop相关介绍

一.简介

大数据:指无法在一定时间范围内用常规软件进行捕捉,管理和处理的数据集合,需要新处理模式才能具有更强的决策力,洞察发现力,和流程优化的能力的海量、高增长率和多样化的信息资产。

主要解决海量数据的存储,海量数据的分析计算:TB,PB,EB

特点:大量(volume),高速(velocity),多样(variety),低价值密度(value), 4v

二.组织架构

大数据部门组织架构
平台组:偏向运维,高级,编辑源码

三.hadoop优势

1.高可靠性:底层维护多个数据副本
2.高扩展性:在集群间分配任务,可方便扩展,不用停掉已开启的服务器
3.高效性:并行工作,MapReduce
4.高容错性:自动将失败的任务从新分配

四.hadoop组成

hadoop组成
hdfs:

  • NameNode: 存储文件的元数据,如目录,文件名,文件属性
  • DataNode:文件数据,块数据的校验和
  • Secondary NameNode(2nn)

yarn

  • Resource Manager(RM)
    1.处理客户端请求
    2.监控Node Manage
    3.启动或监控ApplicationMaster
    4.资源分配和调度

  • Node Manager(NM)
    1.管理单个节点的资源
    2.处理来自Resource Manager的命令
    3.处理来自applicantMaster的命令

  • ApplicationMaster(AM)
    1.负责数据的切分
    2.为应用程序申请资源并分配给内部的任务
    3.任务的监控与容错

  • Container
    是yarn中资源的抽象, 封装了某个节点的多维度资源,如内存,cpu,磁盘,网络等

MapReduce

  • Map:并行处理输入数据
  • Reduce:对map结果进行汇总

五.大数据生态体系:

大数据生态系统

六.推荐系统框架

在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值