大数据之Hadoop
CoderLin很忙
欢迎来到ABC时代~
展开
-
HDFS组成架构与读写数据流程
HDFS组成架构 HDFS采用Master/Slave的架构来存储数据,这种架构主要由四个部分组成,分别为HDFS Client、NameNode、DataNode和Secondary NameNode。 Client:客户端。 (1)文件切分:文件上传HDFS时,Client将文件切分成一个一个的数据块(Block),然后进行上传。 (2)与NameNode交互,获取文件的位置信息。 (3)...原创 2019-02-15 19:39:28 · 532 阅读 · 0 评论 -
Hadoop优化策略
Hadoop优化策略 数据输入小文件处理: (1)合并小文件:对小文件进行归档(har)、自定义inputFormat将小文件存储成sequenceFile文件。 (2)采用CombineFileInputFormat来作为输入,解决输入端大量小文件场景。 (3)对于大量小文件Job,可以开启JVM重用。 map阶段: (1)增大环形缓冲区大小,比如从默认的100m扩大到200m。 (2)增大环...原创 2019-02-15 21:14:40 · 196 阅读 · 0 评论