Hadoop
文章平均质量分 76
BestbpF
在校大学生
展开
-
HDFS原理
http://www.cnblogs.com/laov/p/3434917.html简介HDFS(Hadoop Distributed File System )Hadoop分布式文件系统。是根据google发表的论文翻版的。论文为GFS(Google File System)Google 文件系统(中文,英文)。HDFS有很多特点: ① 保存多个副本,且转载 2017-09-13 11:15:17 · 325 阅读 · 0 评论 -
MapReduce中map与reduce的个数
Map的个数在map阶段读取数据前,FileInputFormat会将输入文件分割成split。split的个数决定了map的个数。影响map个数,即split个数的因素主要有:HDFS块的大小,即HDFS中dfs.block.size的值。默认为128M文件的大小。文件的个数。FileInputFormat按照文件分割split,并且只会分割大文件,即那些大小超过HDFS块的大小原创 2017-10-30 22:54:59 · 1511 阅读 · 0 评论 -
Mapreduce实现MapSideJoin
当连接的两个表是一个比较小的表和一个特别大的表的时候,我们把比较小的table直接放到内存中去,然后再对比较大的表格进行map操作。join就发生在map操作的时候,每当扫描一个大的table中的数据,就要去去查看小表的数据,哪条与之相符,继而进行连接。这里的join并不会涉及reduce操作。map端join的优势就是在于没有shuffle。 比如产品表很小,存储了几条产品信息,但是订单表却很原创 2017-11-08 09:09:27 · 453 阅读 · 0 评论 -
Unable to fence NameNode at 问题
配置完hadoop ha,进行测试时,发现kill掉一个namenode,另一个还是standby,并不会自动变成active,在zkfc的log日志中发现这么一条warn:PATH=$PATH:/sbin:/usr/sbin fuser -v -k -n tcp 8090 via ssh: bash: fuser: 搭建ha的系统是centos最小安装版,并没有fuser这个东西,使原创 2017-10-30 13:18:29 · 1438 阅读 · 0 评论 -
Hadoop HA的部署
背景:Hadoop2.0之前,在HDFS集群中NameNode存在单点故障问题,对于只有一个NameNode的集群,如果NameNode机器出现问题,则整个集群将无法使用,直到NameNode重新启动。NameNode主要在以下两个方面影响HDFS集群:NameNode机器发生意外,如宕机,集群将无法使用,需要管理员重启NameNode机器需要升级,包括软件、硬件升级,原创 2017-09-25 17:54:19 · 353 阅读 · 0 评论 -
MapReduce实战练习四:找出共同好友
需求:有一个文件保存了如下信息:A:B,C,D,F,E,O (A的好友有B,C,D,F,E,O)B:A,C,E,KC:F,A,D,ID:A,E,F,LE:B,C,D,M,LF:A,B,C,D,E,O,MG:A,C,D,E,FH:A,C,D,E,OI:A,OJ:B,OK:A,C,DL:D,E,FM:E,F,GO:A,H,I,J求出两两之间有原创 2017-09-22 15:06:31 · 1695 阅读 · 0 评论 -
MapReduce实战练习一:手机流量统计
需求如下:1、给定一份运营商的手机号数据情况,其中包含上行流量和下行流量2、将手机号以及流量情况按照不同省份统计出来3、将所有数据根据总流量大小递减排序统计出来具体数据如下图,倒数第三位和第二位分别为上行,下行流量,数据之间用tab间隔实体类://实体类FlowBean封装上下行流量以及总流量package com.bpf.flowsSum;import ja原创 2017-09-18 19:01:20 · 2482 阅读 · 0 评论 -
MapReduce实战练习二:两张表的合并汇总
需求:订单数据表t_order:iddatepidamount100120150710P00012100220150710P00013100220150710P00023原创 2017-09-21 18:18:08 · 2536 阅读 · 0 评论 -
MapReduce实战练习三:倒排索引
需求:1、再不同的文件中 有着各种单词,每行单词之间以空格间隔2、统计所有文件,以每行为 单词(空格)文件1名-->单词出现的次数(空格)文件2名-->单词出现的次数(空格)文件3名-->单词出现的次数 的格式产生输出思路:1、先以 单词--文件名(空格)单词出现次数 的格式输出。2、然后再将相同的单词进行整合,按要求格式输出。(本地)测试数据:原创 2017-09-22 09:47:24 · 467 阅读 · 0 评论 -
Yarn运行机制
熟悉了YARN的整体框架。就看看YARN的运行机制 YARN的运行过程、 1,作业提交 该过程与MR1的很相似。步骤1使用的API以及过程与MR1的相同,让后从Resource Manager中获取新的ID,这是一个应用程序的ID(步骤2)。接着客户端检查作业的输出分片,计算输入分片并将作业资源复制到HDFS中。最后,调用Resource Manager调用submitAppl转载 2017-09-16 13:58:49 · 519 阅读 · 0 评论 -
MapReduce工作原理
http://blog.csdn.net/tanggao1314/article/details/51275812最近在研究Hadoop,发现网上的一些关于Hadoop的资料都是以前的1.X版本的,包括MapReduce的工作原理,都是以前的一些过时了的东西,所以自己重新整理了一些新2.X版本的MapReduce的工作原理下面我画了一张图,便于理解MapReduce得整个工作原理转载 2017-09-16 13:52:00 · 368 阅读 · 0 评论 -
用流的方式操作HDFS文件 JAVA API
package com.bpf.hdfs;import java.io.FileInputStream;import java.io.FileOutputStream;import java.io.IOException;import java.net.URI;import org.apache.commons.io.IOUtils;import org.apache.hadoop原创 2017-09-14 14:16:37 · 576 阅读 · 1 评论 -
HDFS相关JAVA API
package com.bpf.hdfs;import java.io.FileNotFoundException;import java.io.IOException;import java.net.URI;import java.util.Iterator;import java.util.Map.Entry;import org.apache.hadoop.conf.Conf原创 2017-09-14 14:13:50 · 175 阅读 · 0 评论 -
Mapreduce shuffle
Shuffle:从Map端到Reduce端的执行情况基本执行过程,描述如下: 一个InputSplit输入到map,会运行我们实现的Mapper的处理逻辑,对数据进行映射操作。map输出时,会首先将输出中间结果写入到map自带的buffer中(buffer默认大小为100M,可以通过io.sort.mb配置)。map自带的buffer使用容量达到一定门限(默认0.80或80%,可以通过io.so原创 2017-11-03 10:10:09 · 214 阅读 · 0 评论