hadoop 学习笔记001

该笔记来源段海涛老师视频
应用场景

    场景1:数据分析平台
            典型:电商平台
    场景2:推荐系统
    场景3:业务系统的底层存储系统
    场景4:业务监控系统

hadoop版本

    1.Apache官方
    2.Cloudera(收费)
    3.HDP(收费)

Hadoop核心组件

    HDFS  分布式文件系统
    YARN  资源管理调度系统
    Mapreduce 分布式运算框架

HDFS实现机制

1.文件是被切块存储在多台服务器,存储在各台服务器的本地文件系统
2.对于客户端,不需要关心分布式细节,hdfs提供了抽象的统一接口
3.每个文件块都可以保存多个副本
4.hdfs中的文件和具体实际存储位置之间的对应关系交由一个专门的服务器来管理--namenode

优点:

1.容量可以线性扩展,加机器
2.有副本机制,存储可靠性高,吞吐量大
3.有了namenode,客户端访问文件就只需要指定hdfs上的路径

mapreduce基本思想:

1.将一个业务处理需求分成两个阶段,map阶段,reduce阶段
2.将分布式计算中面临的公共的问题封装成框架来实现(jar的分发,任务启动,任务容错,调度,中间结果的分组传递...3.应用开发人员只需要关注业务逻辑
        mapreduce只是分布式运算框架的一种实现,类似的框架还有很多,比如:Storm(流式技术),Spark(内存迭代技术)
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值