- 博客(6)
- 收藏
- 关注
原创 Hive On Spark2.0.0 搭建
Hive作为Hadoop家族成员中一份子,在现在的离线数据分析中的重要性已经不用多说。但是众所周知,hive是以MR程序跑在YARN集群上的,这其中的酸爽,想必用过的都说好了。随着技术的进步,Hive的开发者也已经意识到了MR的效率已经不能满足很多的日常需求,所以从hive二代开始,尝试着用spark引擎来替换掉MR,到现在为止,已经hive已经能支持几个版本的spark了。好了,下面...
2018-07-17 13:31:45 2879
转载 HIVE UDF整理
<article> <div id="article_content" class="article_content clearfix csdn-tracking-statistics" data-pid="blog" data-mod="popu_307" data-dsm="post"> &
2018-07-03 16:14:38 1435
原创 MapReduce中的Map,Reduce个数设定
一、Map的个数 在map阶段读取数据前,FileInputFormat会将输入文件分割成spilt,而spilt的个数决定了map的个数(一个spilt分片对应一个map)。影响map个数的因素只要有: 1)文件的大小。比如,当文件大于128M(block默认值)而小于256M时,文件会被划分成两个spilt。 2)文件的个数。FileInputFormat按文件进...
2018-07-03 15:14:55 10296
转载 Hive的五种存储格式
Hive的文件存储格式: 1、textFile textFile为默认格式 存储方式:行存储 缺点:磁盘开销大;数据解析开销大;压缩的text文件,hive无法进行合并和拆分 2、sequencefile 二进制文件,以<key,value>的形式序列化到文件中 存储方式:行存储 优点:可分割、压缩,一般选择block...
2018-07-02 18:37:04 3114
原创 MapReduce运行的工作原理
因为目前大部分公司采用的为YARN调度框架,所以本篇文章只针对MapReduce2进行阐述。一、MapReduce作业运行流程 图 Hadoop使用YARN运行MapReduce的过程(图片截取自Hadoop权威指南) 1、通过Job的submit()方法创建一个JobSummiter实例,并且调用其submitJobInternal()方法。 ...
2018-07-02 18:01:59 723
原创 Mapreduce中的分组和分区
在讲述两个概念之前,先对Mapreduce的流程做一个简单的阐述: (1)最简单的流程Map -> Reduce (2)定制了partitioner : Map -> MyPartiton -> Redcue (3)增加combiner(相当于在reduce之前map端的一次本地化reduce) : Map -> Combiner ...
2018-07-02 12:03:13 6533
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人