Hadoop常用端口号
hadoop2.x | Hadoop3.x |
---|---|
访问HDFS端口 | 50070 |
访问MR执行情况端口 8088 | 8088 |
历史服务器 19888 | 19888 |
客户端访问集群端口 | 9000 |
Hadoop配置文件
Hadoop2.x core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml slaves
Hadoop3.x core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml workers
HDFS读流程和写流程
- HDFS读数据流程
- HDFS写数据流程
HDFS小文件处理
1)会有什么影响
计算层面:
每个小文件都会起到一个MapTask,占用了大量计算资源
2)怎么解决
有小文件场景开启JVM重用;如果没有小文件,不要开启JVM重用,因为会一直占用使用到的task卡槽,直到任务完成才释放。
JVM重用可以使得JVM实例在同一个job中重新使用N次,N的值可以在Hadoop的mapred-site.xml文件中进行配置。通常在10-20之间
<property>
<name>mapreduce.job.jvm.numtasks</name>
<value>10</value>
<description>How many tasks to run per jvm,if set to -1 ,there is no limit</description>
</property>
Shuffle及优化