大数据笔记

Hadoop分布式计算框架,可以存储海量数据和计算海量数据。
目前,做大数据处理的计算框架:

1、 Hadoop 主要做离线批处理(存储海量数据+海量数据离线批处理)
2、 Spark 离线批处理+实时流处理
3、 Storm 实时流处理
4、 Flink 实时流处理 三者只做数据处理

Hadoop应用案例:分布式系统架构
1、 利用Hadoop集群(900)台节点对数据(1T/1024GB)排序,耗时209秒
1460台节点进行排序,耗时62秒。
2、特点:(快速廉价)

淘宝架构

应用层:
数据魔方、

查询层:
Glider用于屏蔽掉存储层查询的异构性

存储层:
MyFox(基于关系型数据库)
Tair(基于kv存储系统)
Prom(基于hive的存储系统)

计算层:
云梯系统(离线批处理,基于hadoop技术)
银河系统(实时流处理,自主技术)

Mysql、日志数据、爬虫数据、其他
1024/GB/TB/PB/EB/ZB/YB

Hadoop:

1.0:HDFS+MapReduce
2.0:HDFS+Yarn(资源-cpu核数和内存-调度管理)+MapReduce
3.0:底层有一些额外优化.

横向扩张----演变为分布式
Namenode职责所在:
1、管理整个datanode集群,能够获知datade的工作状态,是否存活,通过心跳机制来管理。
2、元数据:描述数据的数据(比如文件名,文件大小,文件被切成几块,文件块多大,编号位置,等等)
3、此外,为了避免datanode宕或损坏引起的文件块丢失,备份机制:文件块备份1在机架(集装箱为单位,服务器)的其他datanode机上,备份2在其他机架的datanode中

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值