自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 Hive On Spark2.0.0 搭建

      Hive作为Hadoop家族成员中一份子,在现在的离线数据分析中的重要性已经不用多说。但是众所周知,hive是以MR程序跑在YARN集群上的,这其中的酸爽,想必用过的都说好了。随着技术的进步,Hive的开发者也已经意识到了MR的效率已经不能满足很多的日常需求,所以从hive二代开始,尝试着用spark引擎来替换掉MR,到现在为止,已经hive已经能支持几个版本的spark了。好了,下面...

2018-07-17 13:31:45 2889

转载 HIVE UDF整理

<article>        <div id="article_content" class="article_content clearfix csdn-tracking-statistics" data-pid="blog" data-mod="popu_307" data-dsm="post">                    &

2018-07-03 16:14:38 1444

原创 MapReduce中的Map,Reduce个数设定

一、Map的个数    在map阶段读取数据前,FileInputFormat会将输入文件分割成spilt,而spilt的个数决定了map的个数(一个spilt分片对应一个map)。影响map个数的因素只要有:    1)文件的大小。比如,当文件大于128M(block默认值)而小于256M时,文件会被划分成两个spilt。    2)文件的个数。FileInputFormat按文件进...

2018-07-03 15:14:55 10316

转载 Hive的五种存储格式

Hive的文件存储格式:    1、textFile    textFile为默认格式    存储方式:行存储    缺点:磁盘开销大;数据解析开销大;压缩的text文件,hive无法进行合并和拆分        2、sequencefile     二进制文件,以<key,value>的形式序列化到文件中      存储方式:行存储       优点:可分割、压缩,一般选择block...

2018-07-02 18:37:04 3127

原创 MapReduce运行的工作原理

因为目前大部分公司采用的为YARN调度框架,所以本篇文章只针对MapReduce2进行阐述。一、MapReduce作业运行流程              图   Hadoop使用YARN运行MapReduce的过程(图片截取自Hadoop权威指南)       1、通过Job的submit()方法创建一个JobSummiter实例,并且调用其submitJobInternal()方法。      ...

2018-07-02 18:01:59 733

原创 Mapreduce中的分组和分区

在讲述两个概念之前,先对Mapreduce的流程做一个简单的阐述:        (1)最简单的流程Map -> Reduce        (2)定制了partitioner : Map -> MyPartiton -> Redcue        (3)增加combiner(相当于在reduce之前map端的一次本地化reduce) : Map -> Combiner ...

2018-07-02 12:03:13 6547

原创 spark-stream 读取静态文件几点注意

spark-streaming在读取hdfs或者本地目录下的静态文件时需要注意的几点:一、读取路径为读取文件所在的上一级文件夹,和所读取文件统计目录下的文件夹中的内容不会被读取(path路径只能写到文件夹,否则报空指针错误,但程序不会停止)二、读取文件数据时,把要处理的数据文件put或者mv到指定的文件加下,不然streaming没有数据输出三、sparkstreaming可以监控流式数据的写入...

2018-06-12 17:23:54 1779 1

原创 从零开始学大数据-----Java基础篇之Java的环境搭建

(此文章仅限于零基础朋友,如若您是IT大神,可忽略此文)       大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。       随着云时代的来临,大数据也吸引了越来越多的关注,从而使越来越多的朋友开始对此产生兴趣,并参加到大数据的学习中。

2016-12-19 21:53:22 305

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除