hadoop
文章平均质量分 64
围绕自己的掌握和实际开发中的问题展开
fly_sky333
在代码里摸爬滚打
展开
-
UDF函数开发中的坑
hive中udf函数遇到的问题和处理方式原创 2022-03-23 14:18:44 · 2894 阅读 · 0 评论 -
MapReduce原理及shuffle机制
一、环形缓冲区1.数据在环形缓冲区以KV的形式存在,索引和数据同向增长,当增长到缓冲区大小(默认128M)的80%时(只是80%左右,不是必须80%)开始溢写2.索引占用四个int长度,以一个四元组的形式存在:value的起始位置,key的起始位置,partition值,value的长度。每进一条数据,指针每次向下跳动4个格子,然后补齐上面的值3.发生在环形缓冲区的排序是对索引的排序,再具体是对partition值和key进行排序,将相同的partition放到一起,同一个partition内按原创 2020-06-21 19:38:07 · 468 阅读 · 1 评论 -
hadoop相关知识简单介绍
一、背景:Google首先遇到的大数据存储、计算、搜索问题,在解决这些问题的过程中,发表了GFS、Map-Reduce、Bigtable三篇论文。为后来的大数据提供参考和思想。二、hadoop组件构成hdfs:分布式文件存储系统MapReduce:分布式计算处理框架yarn:资源调度三、hadoop2.0时期架构图四、各个组件部分介绍(这里只介绍hdfs,MapReduce,yarn,至于其他相关组件,详细可以参考我的其他针对模块)1.HDFS:简述:分布式文件存储系原创 2020-06-21 19:38:20 · 313 阅读 · 0 评论 -
HDFS读写流程及涉及的原理
一、HDFS的读数据流程流程概述:1.客户端会先创建distributedfilesystem向namenode发出下载文件的请求2.namenode返回目标文件的元数据信息3.客户端通过FSDataInputStream向DataNode1和DataNode2读取数据4.数据回传。5和6过程同3和4。然后客户端关闭流注:客户端读取数据由于带宽所限,采取就近原则。本地DataNode,距离最近>>>>>>>>>如果没有,取同机原创 2020-06-21 16:46:40 · 486 阅读 · 0 评论