2018年07月_Dzhantao

原创 Hive On Spark2.0.0 搭建

Hive作为Hadoop家族成员中一份子，在现在的离线数据分析中的重要性已经不用多说。但是众所周知，hive是以MR程序跑在YARN集群上的，这其中的酸爽，想必用过的都说好了。随着技术的进步，Hive的开发者也已经意识到了MR的效率已经不能满足很多的日常需求，所以从hive二代开始，尝试着用spark引擎来替换掉MR，到现在为止，已经hive已经能支持几个版本的spark了。好了，下面...

2018-07-17 13:31:45 2879

转载 HIVE UDF整理

<article> <div id="article_content" class="article_content clearfix csdn-tracking-statistics" data-pid="blog" data-mod="popu_307" data-dsm="post"> &

2018-07-03 16:14:38 1435

原创 MapReduce中的Map，Reduce个数设定

一、Map的个数在map阶段读取数据前，FileInputFormat会将输入文件分割成spilt，而spilt的个数决定了map的个数（一个spilt分片对应一个map）。影响map个数的因素只要有： 1）文件的大小。比如，当文件大于128M（block默认值）而小于256M时，文件会被划分成两个spilt。 2）文件的个数。FileInputFormat按文件进...

2018-07-03 15:14:55 10296

转载 Hive的五种存储格式

Hive的文件存储格式： 1、textFile textFile为默认格式存储方式：行存储缺点：磁盘开销大；数据解析开销大；压缩的text文件，hive无法进行合并和拆分 2、sequencefile 二进制文件，以<key,value>的形式序列化到文件中存储方式：行存储优点：可分割、压缩，一般选择block...

2018-07-02 18:37:04 3114

原创 MapReduce运行的工作原理

因为目前大部分公司采用的为YARN调度框架，所以本篇文章只针对MapReduce2进行阐述。一、MapReduce作业运行流程图 Hadoop使用YARN运行MapReduce的过程（图片截取自Hadoop权威指南） 1、通过Job的submit（）方法创建一个JobSummiter实例，并且调用其submitJobInternal（）方法。 ...

2018-07-02 18:01:59 723

原创 Mapreduce中的分组和分区

在讲述两个概念之前，先对Mapreduce的流程做一个简单的阐述：（1）最简单的流程Map -> Reduce （2）定制了partitioner ： Map -> MyPartiton -> Redcue （3）增加combiner（相当于在reduce之前map端的一次本地化reduce）： Map -> Combiner ...

2018-07-02 12:03:13 6533

Dzhantao的博客