![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop
孙行者Monkey
1.每天进步一丢丢,做个有趣的人 2.种一棵树最好时间是十年前,其次是现在 3.每个人都有一个觉醒期,但觉醒的早晚决定个人的命运 4.知行合一,知道了不去做,等于不知道
展开
-
通过bulkload的方式批量加载数据到HBase
加载数据到HBase当中去的方式多种多样,我们可以使用HBase的javaAPI或者使用sqoop将我们的数据写入或者导入到HBase当中去,但是这些方式不是慢就是在导入的过程的占用Region资源导致效率低下,我们也可以通过MR的程序,将我们的数据直接转换成HBase的最终存储格式HFile,然后直接load数据到HBase当中去即可 HBase中每张Table在根目...原创 2019-11-25 21:28:11 · 576 阅读 · 0 评论 -
Retry attempted 10 times without completing, bailing out解决
今天在做通过bulkload的方式批量加载数据到HBase中去的时候遇到了这个异常然后去网上找到了这个方案,我的Hbase是2.0.0,所以试了也没用具体代码如下:BulkLoadMain.classimport org.apache.hadoop.conf.Configuration;import org.apache.hadoop.conf.Configured;i...原创 2019-11-25 21:07:46 · 2282 阅读 · 2 评论 -
动态地向hadoop集群添加一个新节点
由于hadoop集群的内存和负载有限,所以需要添加新的节点来扩充内存,提高mapreduce运行速度一、将namenode节点的hadoop文件目录全部复制到新节点。二、修改每个节点的hosts文件,将节点4的主机名加进去。三、配置ssh免密登录,使得namenode登录新节点的时候不需要输入密码。四、修改各节点的slaves文件,加入新节点的名称。五、单独启动该节点上的Dat...原创 2019-11-02 22:42:06 · 493 阅读 · 0 评论 -
WritableComparable排序
因为map、reduce 之间传递的参数是通过本地持久化来实现,所以需要实现序列化接口。但由于Java的 Serializable接口是一个重量级的API,所以Hadoop自定义一套新的API。 如果传递的参数是基本类型和字符串,可以直接使用Text,LongWritable,IntWritable 。但如果是自定义的 Java Bean,就需要自己实现Writable...原创 2019-10-20 15:00:13 · 439 阅读 · 0 评论 -
实用 | HDFS HA(高可用)
1、 在HDFS 高可用主要解决的是nn的单点故障问题,在该架构中,snn 已不存在2、为了保持 nn 对外提供的服务一致,就必须让2个 nn 的元数据一致,我们可以通过 日志集群 进行数据同步。active nn负责往 QJM 写日志,standby nn负责读取 QJM 的日志。JournalNode 一般是奇数台,当存储的数据达到一半以上,则认为写入日志成功。3、dn...原创 2019-10-17 20:10:57 · 370 阅读 · 0 评论 -
Yarn基本架构&工作机制
YARN主要由ResourceManager、NodeManager、ApplicationMaster和Container等组件构成YARN基本架构Yarn工作机制工作机制详解:(1)MR程序提交到客户端所在的节点。(2)YarnRunner向ResourceManager申请一个Application。(3)RM将该应用程序的资源路径返回给YarnR...原创 2019-10-17 20:00:26 · 287 阅读 · 0 评论 -
CombineTextInputFormat切片机制
CombineTextInputFormat切片机制 框架默认的TextInputFormat切片机制是对任务按文件规划切片,不管文件多小,都会是一个单独的切片,都会交给一个MapTask,这样如果有大量小文件,就会产生大量的MapTask,处理效率极其低下。1、应用场景: CombineTextInputFormat用于小文件过多的场景,它可以将多个...原创 2019-10-13 21:07:31 · 513 阅读 · 0 评论 -
FileInputFormat切片机制
FileInputFormat切片机制原创 2019-10-12 23:05:43 · 322 阅读 · 0 评论 -
实用 | Job提交流程源码和切片源码详解
Job提交流程源码详解代码:waitForCompletion()submit(); // 1建立连接 connect(); // 1)创建提交Job的代理 new Cluster(getConfiguration()); // (1)判断是本地yarn还是远程 initialize(jobTrackAddr, conf); // 2 提交job ...原创 2019-10-12 22:38:27 · 330 阅读 · 0 评论 -
实用 | 切片与MapTask并行度决定机制
1、影响MapTask的并行度决定Map阶段的任务处理并发度,进而影响到整个Job的处理速度。2、MapTask并行度决定机制数据块:Block是HDFS物理上把数据分成一块一块。数据切片:数据切片只是在逻辑上对输入进行分片,并不会在磁盘上将其切分成片进行存储。下面是详细的数据切片与MapTask并行度决定机制...原创 2019-10-12 22:32:29 · 284 阅读 · 0 评论 -
解决Hadoop客户端不能连接HDFS的方法(Caused by: java.lang.ClassNotFoundException)
解决Hadoop不能连接HDFS的方法public class HdfsClient{ @Test public void testMkdirs() throws Exception { // 1 获取文件系统 Configuration configuration = new Configuration(); FileSyste...原创 2019-10-08 21:09:15 · 4201 阅读 · 0 评论