hadoop
Ryu_xxx
这个作者很懒,什么都没留下…
展开
-
HIVE优化理论篇
hive优化部分理论知识原创 2022-09-07 15:30:49 · 646 阅读 · 0 评论 -
HDFS的写入流程及副本复制策略(图解)
步骤补充:1.向namenode发送请求上传文件 然后在namenode里会进行检查是否存在该文件,权限问题 通过则给一个输出流对象2.建立好pipeline管道后,客户端先把文件写入缓存中,达到一个块的大小时,会与第一个datanode建立连接开始流式的传输数据,这个datanode会一小部分一小部分的(4k)接受数据然后写入本地仓库,同时把这些数据传输到第二个datanode上;第二个...原创 2018-12-16 22:57:52 · 3330 阅读 · 0 评论 -
job提交(yarn)过程
客户端将向resourcemanager上传jar包2.resourcemanager将jobid,存储路径及相关信息告诉给客户端3.客户端将相关资源上传到返回的路径上(HDFS上),上传完后返回resourcemanager上传成功,4.resourcemanager将job拉近队列中(FIFO队列支持先进先出)等待nodemanager领取job(有三个调度器:容量调度器,资源调度器,...原创 2018-12-15 16:22:45 · 676 阅读 · 0 评论 -
mapReduce的shuffle流程
1.经过切片之后的数据进入map端,然后将数据处理。2.将数据拉取到环形缓冲区,大小默认为100M,当达到80%的时候,进行溢写到本地磁盘,剩下的20%进行继续拉取数据。3.在环形缓冲区将数据写出前,对数据进行快速排序,及分区处理。4.经过上面处理后的数据合并为一个大的文件并进行归并排序,5.当有一个maptask执行完毕后,reducetask启动。将归并排序后的数据拉取到reduce...原创 2018-12-06 18:07:52 · 295 阅读 · 0 评论