bitcarmanlee的博客

专注算法与数据,正在计划写机器学习方面的数学书籍,有出版社的朋友请联系。微信1833133594...

MapReduce 1.x VS 2.x架构对比

1.Hadoop 1.X架构 Hadoop 1.X的组件主要有两个 1.HDFS(HDFS V1) 2.MapReduce(MR V1) 其中HDFS是分布式文件存储系统,MapReduce是计算框架。 MapReduce 1.X是Master/Slave家头,有全局唯一的Jobtrac...

2019-04-12 16:06:36

阅读数 60

评论数 0

hadoop SequenceFile详解

1. 什么是SequenceFile1.1.sequenceFile文件是Hadoop用来存储二进制形式的[Key,Value]对而设计的一种平面文件(Flat File)。 1.2.可以把SequenceFile当做是一个容器,把所有的文件打包到SequenceFile类中可以高效的对小文件进...

2017-09-27 11:46:20

阅读数 3623

评论数 0

java.io.IOException: Filesystem closed

1.问题描述往集群提交任务的时候,需要在hdfs上面读取一个资源文件。在读取该资源文件的时候,代码爆出如下异常:Error: java.io.IOException: Filesystem closed at org.apache.hadoop.hdfs.DFSClient.checkOp...

2017-03-30 15:42:49

阅读数 5420

评论数 0

Hadoop Partitioner 实战详解

Partitioner是MR中非常重要的组件。Partitioner的作用是针对Mapper阶段的中间数据进行切分,然后将相同分片的数据交给同一个reduce处理。Partitioner过程其实就是Mapper阶段shuffle过程中关键的一部分。在老版本的hadoop中,Partitioner是...

2017-03-03 12:44:39

阅读数 1327

评论数 1

mapreduce多路输出实例

1.MultiPleOutputs简介MapReduce job中,可以使用FileInputFormat和FileOutputFormat来对输入路径和输出路径来进行设置。在输出的时候,MR内部会对输出的文件进行重新命名,例如常见的形式为part-r-00000。 但是很多情况下,我们希望将输...

2017-02-04 14:38:47

阅读数 3521

评论数 0

InstantiationException in hadoop map reduce program

在MR代码中有多路输入。代码提交到集群以后,log爆出如下异常:Exception in thread "main" java.lang.RuntimeException: java.lang.InstantiationException at org.apac...

2017-01-23 15:46:26

阅读数 892

评论数 1

hadoop文件的序列化

1、为什么要序列化?一般来说,”活的”对象只存在内存里,关机断电就没有了。而且”活的”对象只能由本地的进程使用,不能被发送到网络上的另外一台计算机。 然而序列化可以存储”活的”对象,可以将”活的”对象发送到远程计算机。2、什么是序列化?序列化就是指将对象(实例)转化为字节流(字符数组)。反序列化就...

2016-12-18 11:10:38

阅读数 1058

评论数 0

Hadoop-Streaming实战经验及问题解决方法总结

看到一篇不错的Hadoop-Streaming实战经验的文章,里面有大部分的情景都是自己实战中曾经遇到过的。特意转载过来,感谢有心人的总结。目录 Join操作分清join的类型很重要… 启动程序中key字段和partition字段的设定… 控制hadoop程序内存的方法… 对于数字key的排序问题...

2016-07-11 18:01:02

阅读数 2793

评论数 0

hadoop streaming 按字段排序与输出分割详解

1.默认情况在hadoop streaming的默认情况下,是以”\t”作为分隔符的。对于标准输入来说,每行的第一个”\t” 以前的部分为key,其他部分为对应的value。如果一个”\t”字符没有,则整行都被当做key。这个2.map阶段的sort与partitionmap阶段很重要的阶段包括s...

2016-07-11 16:13:37

阅读数 7683

评论数 0

hadoop 用MR实现join操作

在MR中,类似于join类的操作非常常见。在关系型数据库中,join就是最强大的功能之一。在hive中,jion操作也十分常见。现在,本博主就手把手教会大家怎么在MR中实现join操作。为了方便起见,本文就以left join为视角来实现。1.数据准备关于什么是join,什么是left join,...

2016-07-08 19:05:04

阅读数 5220

评论数 0

hadoop 代码中获取文件名

在hadoop的MR相关代码中,经常需要获得mapper输入的文件名,从而针对不同的文件进行不同的操作。下面简单地介绍一下如果在MR代码中获取文件名1.在streaming中获取文件名实际中经常用python开发streaming程序,在python代码中可以用如下方式获得文件名:import o...

2016-06-22 16:09:01

阅读数 7244

评论数 0

hadoop SequenceFile

1 SequenceFile的理解1)SequenceFile是Hadoop用来存储二进制形式的对而设计的一种平面文件(Flat File); (2)可以把SequenceFile当做一个容器,把所有文件打包到SequenceFile类中可以高效的对小文件进行存储和处理; (3)Sequenc...

2016-05-25 11:01:05

阅读数 551

评论数 0

hadoop 压缩工具 比较

hadoop里支持许多压缩算法。压缩的好处主要有两点:1.减少了文件占用的存储空间,原来上T的文件可能压缩完以后只需要两三百G的空间即可;2.文件的体积小了以后,数据传输的速度自然就快了。在现在的大数据环境下,这两点显得更加重要。所以现在hdfs文件系统上存的文件,如果数据量大到一定程度,都需要经...

2016-05-25 10:12:26

阅读数 1857

评论数 0

Hadoop Configuration 源码详解

hadoop里相关的配置在org.apache.hadoop.conf包里,Configuration类就在里面。关于配置类的相互关系,已经在: http://blog.csdn.net/bitcarmanlee/article/details/51454564中 有过详细的介绍。为了让大家更好...

2016-05-21 10:13:19

阅读数 3690

评论数 0

hadoop fs.trash 详解

linux系统里,我觉得最大的不方便之一就是没有回收站的概念。由rm -rf引发的血案,估计每个写代码的同学都遇到过。在hadoop或者说hdfs里面,有trash相关的概念,可以使得数据被误删以后,还可以找回来。1.打开trash相关选项hadoop里的trash选项默认是关闭的。所以如果要生效...

2016-05-20 22:18:54

阅读数 6110

评论数 0

hadoop Configured Configrable Configuration Tool 源码详解

在用java写MR的时候,定义类的第一行一般都是如下方式:public class XXX extends Configured implements Toolrun方法的一个实例如下:public int run(String[] args) throws Exception { ...

2016-05-19 16:00:32

阅读数 1114

评论数 0

hadoop mapper从源码开始 详解

hadoop的mapreduce计算框架中,最重要的两个部分自然就是mapper跟reducer了。写了这么久的MR,一直没有机会研究源码,也挺遗憾的。趁着这波有一些要深入了解的需求,加上周末的一些时间,仔细阅读了一下mapper相关源码,有了自己的一些小小心得,权当笔记。写得不好或者有不对的地方...

2016-05-15 22:38:32

阅读数 6255

评论数 0

hadoop 新API与旧API对比

Hadoop现在同时提供了新旧的两套API接口。现在编写MR代码的时候,当然尽可能使用新的API接口。但是旧的API接口暂时也还有保留,也还能使用。实际项目开发的时候,尽量统一标准用一套API较好,以免带来不必要的麻烦。下面我们来简单介绍一下新旧两套API的区别。1.存放的位置这是最令人蛋疼,最需...

2016-05-15 20:56:25

阅读数 1226

评论数 0

hadoop 注解之 interfaceAudience interfaceStability

在阅读hadoop相关源码的过程中,经常见到类似@InterfaceAudience.Public @InterfaceStability.Stable之类的标识。特意查阅了一下相关资料,在此做一个小结InterfaceAudienceInterfaceAudience 类包含有三个注解类型,用来...

2016-05-14 23:18:47

阅读数 2930

评论数 0

MapReduce Shuffle详解

Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce,Shuffle是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大致的逻辑,反而越搅越混。前段时间在做MapReduce job 性能调优的工作,需要深入代码研究MapRedu...

2016-04-07 22:06:36

阅读数 440

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭