hadoop
Mr_WuHo_O
菜鸟一只
展开
-
大数据生态组件简述
1、客户端向 nameNode 发送要上传文件的请求2、nameNode 返回给用户是否能上传数据的状态3、加入用户端需要上传一个 1024M 的文件,客户端会通过 Rpc 请求 NameNode,并返回需要上传给那些 DataNode(分配机器的距离以及空间的大小等),namonode会选择就近原则分配机器。4、客户端请求建立 block 传输管道 chnnel 上传数据5、在上传是 datan...转载 2018-03-17 09:16:27 · 701 阅读 · 0 评论 -
MapReduce具体过程
统计hdfs某个文件中重复单词的数目(WordCount),每个单词用空格分隔,统计每个单词的出现频率,说明MapReduce框架的过程。进行map过程之前,进行Pre-Map过程。框架帮我们把文件切分,NameNode把文件切分成block,每个block最大为128M;文件小于128M时,文件多大形成的block就是多大;一个block不能跨多个文件。分隔好后,针对每个文件内部,再根据换行符\...原创 2018-03-17 22:53:59 · 335 阅读 · 0 评论 -
java版二次排序的流程
基本的二次排序,以按照两个字段排序为例。先按第一字段升序,再按第二字段降序。二次排序的核心是把原来的key--value对组合成key,称为newkey,value还是value。与原来的wordcount相比,多了一个“分组”步骤,就是把newkey中的第一个字段相同的数据放到一起,再按第二个字段排序。如图,pre-map阶段,namenode切分文件后,再把文件内容按行(\n)分割,距行首的偏...原创 2018-04-08 21:50:08 · 1632 阅读 · 0 评论 -
hdfs的读写文件过程
写详细步骤:1、客户端向NameNode发出写文件请求,。2、检查是否已存在文件、检查权限。若通过检查,客户端调用DistributedFileSystem的create方法创建文件,直接先将操作写入EditLog,并返回输出流对象。(注:WAL,write ahead log,先写Log,再写内存,因为EditLog记录的是最新的HDFS客户端执行所有的写操作。如果后续真实写操作失败了...原创 2019-05-09 12:25:36 · 1043 阅读 · 0 评论