![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 90
三石先生已存在
这个作者很懒,什么都没留下…
展开
-
hive优化总结
1.我们知道大数据场景下不害怕数据量大,害怕的是数据倾斜,怎样避免数据倾斜,找到可能产生数据倾斜的函数尤为关键,数据量较大的情况下,慎用count(distinct),count(distinct)容易产生倾斜问题。2.设置合理的map reduce 的task数量map阶段优化mapred.min.split.size: 指的是数据的最小分割单元大小;min的默认值是1Bmapred.max.split.size: 指的是数据的最大分割单元大小;max的默认值是256MB通过调整max可以起到调转载 2021-03-28 21:20:27 · 120 阅读 · 0 评论 -
Hadoop常见面试题总结
1.HDFS读写流程1.1 读 (1)client跟namenode通信查询元数据,namenode通过查询元数据,找到文件块所在的datanode服务器(2)挑选一台datanode(就近原则,然后随机)服务器,请求建立socket流(3) datanode开始发送数据(从磁盘里面读取数据放入流,以packet为单位来做校验,大小为64k)(4)客户端以packet为单位接收,现在本地缓存,然后写入目标文件1.2 写 (1)客户端跟namenode通信请求上传文件,na原创 2021-03-28 22:06:41 · 575 阅读 · 0 评论