分布式系统
IronWring_Fly
这个作者很懒,什么都没留下…
展开
-
两阶段提交2PC,三阶段提交3PC
为了实现分布式事务,人们提出了分两个阶段提交事务,以及改进版,分三个阶段提交事务。 为了实现不同事务参与者之间事务的一致性,需要有一个统一的事务管理者,来对这些参与者进行统一的事务管理, 两阶段提交过程大致如下: 准备阶段管理者向参与者发起事务请求,询问是否可以执行事务。参与者执行事务,写undo日志和redo日志,并返回事务执行成功或失败。 提交阶段管理者接到参与...原创 2019-09-05 14:33:51 · 212 阅读 · 0 评论 -
向HDFS中写入数据时,如果有一个副本出错了怎么办
关闭管线。将已经发送到管道中,但是还没有确认的数据重新写回到缓冲区,保证数据不会丢失。所有的namenode重新分配一个版本号重新选举一个主datanode计算所有datanode中最小的数据块,重新分配重建管线,重新写入宕掉的datanode恢复后由于版本号不同会被剔除掉。写完文件,namenode发现副本数量不够,会在其他数据节点上再创建一个新的副...原创 2019-09-18 16:34:28 · 758 阅读 · 0 评论 -
Yarn的任务执行流程
流程 client向resource manager提交任务jobRM返回任务的提交路径以及job的idclient将任务资源提交到公共文件池中,并向RM汇报提交结果。RM将任务放入内部的任务队列中Node Manager通过心跳连接,获取到任务RM为任务创建执行容器RM为容器启动app Master进程app Master决定在哪些数据节点上执行任务。被分配执行任务的节点去公...原创 2019-09-19 17:48:39 · 707 阅读 · 0 评论 -
hadoop的mapreduce(2)
map是映射,把文档映射成key-value的结构体,将数据读入,经过分区计算合并输出为k-v结构,如果有combiner会在对输出进行一次合并,使map的输出更加的紧凑。reduce阶段会把相同key的value进行合并,输出也是k-v结构体。 shuffle分为map端和reduce端,map端将文件读入,先写入缓存区,缓存区默认100M,缓存区写满了会溢出到磁盘,形成spill文件。...原创 2019-09-20 14:52:59 · 81 阅读 · 0 评论 -
CAP理论
什么是数据一致性 在分布式系统中,为了保证数据的高可用性,需要对数据进行备份。如果在备份过程中,系统出现了故障,导致不同机器上的数据不一致,这就造成了数据一致性问题。CAP理论 CAP,是三个单词的首字母大写,分别是:consistency,availability,partition tolerance。 consistency:一致性,与数据库的ACID的一致性类似,这里更...原创 2019-09-05 09:39:34 · 396 阅读 · 0 评论