- 博客(3)
- 收藏
- 关注
原创 MapReduce中mapTask和reduceTask任务数
MapReduce分为map阶段和reduce阶段,两个阶段都是多个任务并行处理map阶段:MapTask个数为number of splits(输入文件的切分数)reduce阶段:ReduceTask个数为number ofpartition (分区数,有几个分区就会最终输出几个文件)...
2020-07-04 19:18:00 1006
原创 Hadoop之HDFS小文件存档
HDFS是按块存储,每个块的元数据存储在namenode内存中,因此大量的小文件会耗尽namenode内存。HDFS通过文件存档来解决这个问题归档是需要启动YARN归档文件把/user/input目录里面的所有文件归档成一个叫input.har的归档文件,并把归档后文件存储到/user/output路径下。hadoop archive -archiveName input.har –p /user/input /user/output查看归档hadoop fs -lsr...
2020-07-02 10:42:09 199
原创 Hadoop之HDFS上传下载
上传至HDFS简化流程:数据是存储在datanode上,因此客户端上传时需要知道往哪个datanode传输数据,而namenode的作用就是根据一定策略向客户端分配datanode。上传时,客户端向datanode请求上传,然后namenode会将datanode的地址发送给客户端,客户端根据地址来上传副本。从HDFS下载简化流程:下载时,客户端向datanode请求下载,然后nameNode通过查询元数据,找到文件块所在的DataNode地址,发送给客户端,客户端会挑选一台DataN.
2020-07-01 18:18:24 216 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人