菜鸟进阶大数据第二天(主要是大数据的概述)

大数据:
自己的定义:在短时间内快速产生大量多种多样的有价值的信息

而为了解决大数据数据量过大的问题,所以产生了垂直扩展和横向扩展 。
垂直扩展是在一个服务器上分多个块
横向扩展是增加多个廉价的服务器

根据谷歌的三大论文所以产生了
1:GFS--------HDFS分布式文件系统(分布式的存储)
2:MapReduce-------分布式的处理
3:BigData-------------HBase
这三点可以去官网多了解一下

hdfs:
主节点:(Namenode) 存文件
hdfs的读写机制
从节点:(Datanode) 读文件
备份:client -------为了解决安全问题

yarn-------资源和任务的调度
mapreduce--------批处理
spark:
spark core
sparkSQL----可以用sql处理
sparkStreaming----流式处理
mllib------机器学习库
graphx------spark已经停止维护了

kafka
zookeeper-----协调服务
flume
hive-----大型数据库----sql语句
flink
storm
hbase

以block块的形式将大文件进行相应的存储
1.0版本以前的都是64M
2.0版本后的都是128M

文件线性切割成块(block):偏移量offset(byte)
Block分散存储在集群节点中
单一文件Block大小一致,文件和文件可以不一致Block可以设置副本数,副本分散在不同的节点中副本数不要超过节点数量
文件上传可以设置Block大小和副本数
已上传的文件Block副本数可以调整,大小不变
只支持一次写入多次读取,同一时刻只有一个写入者

Namenode:
1:掌控全局,管理DN的信息,管理元数据
元数据:描述数据的数据
源数据:就是数据
2:接收client的请求 读写
3:与DN之间进行相应的通信
Datanode:
1:干活的----存储数据
2:汇报自己的情况
3:接收client的一个安排

写操作:
1:有一个大文件
2:client会将大文件切块
大文件的个数/128M=block快数
3:向NN汇报:
①:块数
②:文件的大小
③:文件的权限
④:文件的属主
⑤:文件的上传的时间
for((Block block:blocks)){
4:client切下一块 128M
5:client会向NN去申请资源—DN的信息
6:NN会返回一批负载不高的DN给client
7:client会向DN里面发送block并且做好备份 8:DN存放block块之后会向NN汇报情况
}
读请求:
1:NN会向client发送一个请求,client接收到请求之后,会向NN去申请节点信息(blockid)
2:NN会向client发送一些节点信息
3:client获取到节点信息之后去DN上去拿数据-------里面默认就近原则
备份机制:
1:集群内提交
在提交的节点上放置block
集群外提交
选择一个负载不高的节点进行存放
2:放置在与第一个备份不同的机架的任意节点上
3:放置在第二个机架上的不同节点上

pipeline管道:
1:NN再返回给client一些DN的信息之后
2:client会和这些DN形成一个管道,并且将block切割成一个个ackPackage(64k)
3:DN会从管道中拿取相应的数据进行存储
4:当存储完成之后,DN会向NN进行汇报

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值