- 博客(6)
- 收藏
- 关注
原创 Hadoop常见面试题
什么是HDFS指的是Hadoop分布式文件系统(HadoopFileSystem),是ApacheHadoop框架中的一个分布式文件系统。它被设计用来在集群中存储和处理大规模数据集。HDFS可以提供高可靠性、高吞吐量和高扩展性。原理1. HDFS将大文件分成多个块(block),每个块默认大小为128MB或256MB,然后将这些块分散存储在集群中的多个节点上。2每个块都会有多个副本(replica),默认情况下是3。
2023-05-30 15:29:59 507 1
原创 HDFS原理分析
2、客户端拿到数据存放节点位置信息后,会和对应的DataNode节点进行直接交互,进行数据写入,由于数据块具有副本replication,在数据写入时采用的方式是先写第一个副本,写完后再从第一个副本的节点将数据拷贝到其它节点,依次类推,直到所有副本都写完了,才算数据成功写入到HDFS上,副本写入采用的是串行,每个副本写的过程中都会逐级向上反馈写进度,以保证实时知道副本的写入情况;2、NameNode会将子节点的相关元数据信息缓存在内存中,对于文件与Block块的信息会通过。
2023-05-30 10:43:06 69 1
原创 Seata介绍
Seata的设计目标是对这个业务无侵入,因此从业务无侵入的2PC方案开始的,在传统的2PC的基础上演进的。它把一个分布式事务拆分理解成一个包含了若干分支事务的全局事务。全局事务的职责是协调其下管辖的分支事务达成一致性,要么一起成功提交,要么一起失败回滚。此外,通常分支事务本身就是一个关系数据库的本地事务。
2023-05-08 19:49:05 60
原创 HDFS 原理分析
客户端拿到数据存放节点位置信息后,会和对应的DataNode节点进行直接交互,进行数据写入,由于数据块具有副本replication,在数据写入时采用的方式是先写第一个副本,写完后再从第一个副本的节点将数据拷贝到其它节点,依次类推,直到所有副本都写完了,才算数据成功写入到HDFS上,副本写入采用的是串行,每个副本写的过程中都会逐级向上反馈写进度,以保证实时知道副本的写入情况;、NameNode会将子节点的相关元数据信息缓存在内存中,对于文件与Block块的信息会通过。
2023-04-09 20:29:43 110 1
原创 Yarn工作原理
3. Container的运行是由ApplicationMaster向资源所在的NodeManager发起的,Container运行时需提供内部执行的任务命令(可以是任何命令,比如java、Python、C++进程启动命令均可)以及该命令执行所需的环境变量和外部资源(比如词典文件、可执行文件、jar包等)。那么container又是什么呢?它包含了Application Master向ResourceManager申请的计算资源,比如说CPU/内存的大小,以及任务运行所需的环境变量和队任务运行情况的描述。
2023-04-06 19:01:20 94 3
原创 Hbase
回放的时候会读取Hfile的oldestUnflushedSequenceId中的sequenceid和Hlog中的sequenceid进行比较,小于sequenceid的就直接忽略,但与或者等于的就进行重做。sequenceid的相关逻辑:Memstore在达到一定的条件会触发刷盘的操作,刷盘的时候会获取刷新到最新的一个sequenceid的下一个sequenceid,并将新的sequenceid赋给oldestUnflushedSequenceId,并刷到Ffile中。的时候,就停止刷盘。
2023-04-06 18:59:48 44
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人