(2021-04-20)Hadoop 常用端口号
Hadoop 2.x | Hadoop 3.x | |
---|---|---|
HDFS | 50070 | 9870 |
Yarn | 8088 | 8088 |
HistoryServer | 19888 | 19888 |
(2021-04-21)Hadoop 调优
优化策略 | |
---|---|
1 | 存储、压缩 |
2 | 负载均衡 |
3 | 基准测试 |
4 | 参数调优 |
1. 多目录存储
相当于 Windows 系统按照 C、D、E、F 多个盘进行存储的策略。
配置文件: hdfs-site.xml
参数: dfs.datanode.data.dir
FileSystem | Mounted on |
2. 压缩格式
默认压缩格式
Hadoop 默认采用 gzip 和 bzip2 的压缩策略。
压缩策略的选择
阶段 | 压缩策略 |
---|---|
Map 阶段之前 | 数据量小: 追求速度 |
数据量大: 切片,采用 bzip2 / lzo | |
Map 阶段之后,Reduce 阶段之前 | lzo / snappy |
Reduce 阶段结束 | 1. 永久保存数据: 低压缩比,采用 bzip2 |
2. 作为下游输入 |