hadoop
arthur.dy.lee
这个作者很懒,什么都没留下…
展开
-
看Hadoop底层算法如何优雅的将大规模集群性能提升10倍以上?【四】
目录一、前情概要二、背景引入三、问题凸现四、Hadoop的优化方案一、前情概要这篇文章给大家聊聊Hadoop在部署了大规模的集群场景下,大量客户端并发写数据的时候,文件契约监控算法的性能优化。看懂这篇文章需要一些Hadoop的基础知识背景,还不太了解的兄弟,可以先看看之前的文章:兄弟,用大白话告诉你小白都能看懂的Hadoop架构原理。二、背景引入先给大家引入一个小的背景,假如多个客户端同时要并发的写Hadoop HDFS上的一个文件,大家觉得这个事儿能成吗?明显不可以接受转载 2020-09-29 17:21:49 · 222 阅读 · 0 评论 -
Hadoop如何将TB级大文件的上传性能优化上百倍【三】
目录一、写在前面二、原始的文件上传方案三、大规模分布式系统对大文件上传的性能优化(1)Chunk缓冲机制(2)Packet数据包机制(3)内存队列异步发送机制四、总结一、写在前面上一篇文章,我们聊了一下Hadoop中的NameNode里的edits log写机制。主要分析了edits log写入磁盘和网络的时候,是如何通过分段加锁以及双缓冲的机制,大幅度提升了多线程并发写edits log的吞吐量,从而支持高并发的访问。如果没看那篇文章的同学,可以回看一下:大规模转载 2020-09-29 17:20:36 · 441 阅读 · 0 评论 -
大规模集群下Hadoop NameNode如何承载每秒上千次的高并发访问【二】
目录一、写在前面二、问题源起三、HDFS优雅的解决方案:(1)分段加锁机制+内存双缓冲机制(2)多线程并发吞吐量的百倍优化(3)缓冲数据批量刷磁盘+网络优化一、写在前面上篇文章我们已经初步给大家解释了Hadoop HDFS的整体架构原理,相信大家都有了一定的认识和了解。如果没看过上篇文章的同学可以看一下:《兄弟,用大白话告诉你小白都能听懂的Hadoop架构原理》这篇文章。本文我们来看看,如果大量客户端对NameNode发起高并发(比如每秒上千次)访问来修改元数据,此时转载 2020-09-29 17:18:18 · 1468 阅读 · 0 评论 -
兄弟,用大白话告诉你小白都能看懂的Hadoop架构原理【一】
一、前奏Hadoop是目前大数据领域最主流的一套技术体系,包含了多种技术。包括HDFS(分布式文件系统),YARN(分布式资源调度系统),MapReduce(分布式计算系统),等等。有些朋友可能听说过Hadoop,但是却不太清楚他到底是个什么东西,这篇文章就用大白话给各位阐述一下。假如你现在公司里的数据都是放在MySQL里的,那么就全部放在一台数据库服务器上,我们就假设这台服务器的磁盘空间有2T吧,大家先看下面这张图。现在问题来了,你不停的往这台服务器的MySQL里...转载 2020-09-29 17:03:12 · 227 阅读 · 0 评论