菜鸟进阶大数据第二天（主要是大数据的概述）

最新推荐文章于 2024-09-05 17:10:06 发布

傷訫

最新推荐文章于 2024-09-05 17:10:06 发布

阅读量1.4k

点赞数 1

本文链接：https://blog.csdn.net/doubimen/article/details/91399882

版权

大数据：
自己的定义：在短时间内快速产生大量多种多样的有价值的信息

而为了解决大数据数据量过大的问题，所以产生了垂直扩展和横向扩展。
垂直扩展是在一个服务器上分多个块
横向扩展是增加多个廉价的服务器

根据谷歌的三大论文所以产生了
1：GFS--------HDFS分布式文件系统（分布式的存储）
2：MapReduce-------分布式的处理
3：BigData-------------HBase
这三点可以去官网多了解一下

hdfs:
主节点:（Namenode）存文件
hdfs的读写机制
从节点:（Datanode）读文件
备份:client -------为了解决安全问题

yarn-------资源和任务的调度
mapreduce--------批处理
spark:
spark core
sparkSQL----可以用sql处理
sparkStreaming----流式处理
mllib------机器学习库
graphx------spark已经停止维护了

kafka
zookeeper-----协调服务
flume
hive-----大型数据库----sql语句
flink
storm
hbase

以block块的形式将大文件进行相应的存储
1.0版本以前的都是64M
2.0版本后的都是128M

文件线性切割成块(block):偏移量offset(byte)
Block分散存储在集群节点中
单一文件Block大小一致，文件和文件可以不一致Block可以设置副本数，副本分散在不同的节点中副本数不要超过节点数量
文件上传可以设置Block大小和副本数
已上传的文件Block副本数可以调整，大小不变
只支持一次写入多次读取,同一时刻只有一个写入者

Namenode:
1:掌控全局,管理DN的信息,管理元数据
元数据:描述数据的数据
源数据:就是数据
2:接收client的请求读写
3:与DN之间进行相应的通信
Datanode：
1:干活的----存储数据
2:汇报自己的情况
3:接收client的一个安排

写操作:
1：有一个大文件
2:client会将大文件切块
大文件的个数/128M=block快数
3:向NN汇报:
①:块数
②:文件的大小
③:文件的权限
④:文件的属主
⑤:文件的上传的时间
for((Block block:blocks)){
4:client切下一块 128M
5:client会向NN去申请资源—DN的信息
6:NN会返回一批负载不高的DN给client
7:client会向DN里面发送block并且做好备份 8:DN存放block块之后会向NN汇报情况
}
读请求:
1:NN会向client发送一个请求，client接收到请求之后,会向NN去申请节点信息（blockid）
2:NN会向client发送一些节点信息
3:client获取到节点信息之后去DN上去拿数据-------里面默认就近原则
备份机制:
1：集群内提交
在提交的节点上放置block
集群外提交
选择一个负载不高的节点进行存放
2:放置在与第一个备份不同的机架的任意节点上
3:放置在第二个机架上的不同节点上