![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 93
zhaojiew10
大道至简
展开
-
在ec2上配置和安装airflow
在ec2上安装和配置airflow原创 2023-06-25 18:33:23 · 16821 阅读 · 0 评论 -
kafka 基础架构和环境搭建
kafka 基础架构和环境搭建原创 2023-03-23 23:26:59 · 25348 阅读 · 0 评论 -
HDFS高可用
其他资料:hadoop中的JournalNode的作用 https://hadoop.apache.org/docs/r3.1.3/hadoop-project-dist/hadoop-hdfs/HDFSHighAvailabilityWithQJM.html基于ZooKeeper搭建Hadoop高可用集群注意要点:注意备份之前的hadoop配置文件,方便回溯部署 Zookeeper,可参考《zookeeper内部原理和API操作》尚硅谷的视频hadoop版本是2.7.4,之前部署的版本原创 2022-04-23 17:11:25 · 8361 阅读 · 0 评论 -
Yarn资源调度器
Yarn 是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而 MapReduce 等运算程序则相当于运行于操作系统之上的应用程序YARN 主要由 ResourceManager、 NodeManager、 ApplicationMaster 和 Container 等组件构成。原创 2022-04-22 00:04:52 · 243 阅读 · 0 评论 -
HDFS读写流程
写数据流程流程:客户端通过 Distributed FileSystem 模块向 NameNode 请求上传文件, NameNode 检查目标文件是否已存在,父目录是否存在。NameNode 返回是否可以上传。客户端请求第一个 Block 上传到哪几个 DataNode 服务器上。NameNode 返回 3 个 DataNode 节点, 分别为 dn1、 dn2、 dn3。客户端通过 FSDataOutputStream 模块请求 dn1 上传数据, dn1收到请求会继续调用dn2,然后 d原创 2022-04-19 16:29:30 · 346 阅读 · 0 评论 -
HDFS的Namenode和Datanode
NN 和 2NN 工作机制(重点)首先,我们做个假设,如果存储在 NameNode 节点的磁盘中,因为经常需要进行随机访问,还有响应客户请求,必然是效率过低。因此,元数据需要存放在内存中。但如果只存在内存中,一旦断电,元数据丢失,整个集群就无法工作了。 因此产生在磁盘中备份元数据的FsImage。这样又会带来新的问题,当在内存中的元数据更新时,如果同时更新 FsImage,就会导致效率过低,但如果不更新,就会发生一致性问题,一旦 NameNode 节点断电,就会产生数据丢失。 因此,引入 Edits原创 2022-04-19 16:38:52 · 1299 阅读 · 0 评论 -
HDFS的shell和api操作
HDFS概述HDFS 是分布式文件管理系统中的一种适合一次写入,多次读出的场景优点:高容错性 ;适合处理大量数据;可构建在廉价机器上缺点:不适合低延时数据访问 ;无法高效的对大量小文件进行存储 ;不支持并发写入,仅支持数据append(追加),不支持文件的随机修改HDFS 组成架构NameNode(NN):Master管理HDFS的名称空间配置副本策略管理数据块(Block)映射信息处理客户端读写请求。DataNode:Slave,NameNode下达命令,DataNode执行实原创 2022-04-17 17:15:41 · 639 阅读 · 0 评论 -
hadoop集群环境搭建
hadoop运行模式有三种,本地模式、 伪分布式模式以及完全分布式模式搭建本地运行模式测试实验所用环境为云虚拟机4g内存,40g存储创建虚拟机,配置子网和网关,确保虚拟机联网卸载本地jdk并上传压缩包到/home/xxxx/software,安装jdk1.8和hadoop3.1.3tar -zxvf hadoop-3.1.3.tar.gz -C /opt/module/ tar -zxvf jdk-8u212-linux-x64.tar.gz -C /opt/module/ 通过/etc/p原创 2022-04-16 16:51:34 · 868 阅读 · 1 评论 -
hadoop大数据生态概述
HadoopHadoop是一个由Apache基金会所开发的分布式系统基础架构Hadoop通常是指一个更广泛的概念——Hadoop生态圈Hadoop 三大发行版本: Apache、 Cloudera、 Hortonworks (被收购)注意:Hadoop1.x、 2.x、 3.x的区别(计算和资源调度)HDFS架构NameNode(nn):存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间、 副本数、文件权限),以及每个文件的块列表和块所在的DataNode等DataNode(dn原创 2022-04-16 16:50:44 · 3247 阅读 · 0 评论