自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 收藏
  • 关注

转载 MapReduce: 提高MapReduce性能的建议(1)

MapReduce: 提高MapReduce性能的建议(1)http://www.aboutyun.com/thread-5749-1-1.html请教一个问题:在集群上运行Mapreduce V2程序,每次处理大约100G-400G的数据,但是程序运行后,NodeManager机器的CPU会达到100%,直到任务结束,内存使用正常。在NodeManager机器上,使用jps命令,

2015-07-21 13:40:00 402

转载 hadoop MapReduce - 从作业、任务(task)、管理员角度调优

hadoop MapReduce - 从作业、任务(task)、管理员角度调优http://www.aboutyun.com/thread-10557-1-1.html问题导读1.Combiner的作用是什么?2.作业级别参数如何调优?3.任务及管理员级别有哪些可以调优?Hadoop为用户作业提供了多种可配置的参数,以允许用户根据作业特点调整这些参数值使

2015-07-21 10:36:03 584

转载 MapReduce之计数器及实例

MapReduce之计数器及实例http://www.aboutyun.com/thread-13745-1-1.html感兴趣的直接点上面链接,会有更详细的解析问题导读1.hadoop有哪些内置计数器?2.job.getCounters()可以得到什么?3.MapReduce是否允许用户自定义计数器?简述:Hadoop计数器:可以让开发人员以全局的

2015-07-20 13:59:34 1233

转载 [Hadoop源码详解]之一MapReduce篇之InputFormat

小站博文地址:[Hadoop源码详解]之一MapReduce篇之InputFormat1. 概述我们在设置MapReduce输入格式的时候,会调用这样一条语句:1job.setInputFormatClass(KeyValueTextInputFormat.class);这条语句

2015-07-15 09:56:22 628

转载 MapReduce中的分区方法Partitioner

问题导读:1.Partitioner分区类的作用是什么?2.getPartition()三个参数分别是什么?3.numReduceTasks指的是设置的Reducer任务数量,默认值是是多少?扩展:如果不同类型的数据被分配到了同一个分区,输出的数据是否还是有序的?在进行MapReduce计算时,有时候需要把最终的输出数据分到不同的文件中,比如按照省份划分的话,需

2015-07-14 10:45:09 687 1

转载 从程序角度分析mapreduce原理与代码

1.描述mapper处理的过程?2.调用一次map方法会输出多少键值对?3.对于输出的键值对,默认分区标准是什么?4.分区与reducer任务之间的关系是什么?5.是什么规约?规约的目的是什么?规约是否必须的?6.键相等的键值对调用几次reduce方法?MapReduce运行的时候,会通过Mapper运行的任务读取HDFS中的数据文件,然后调用自己的方法

2015-07-13 17:55:27 437

原创 java的toString

为什么我在类中重写他,当输出该类对象的时候却能显示里面的结果?例如:我输出的是一个对象,却调用到了toString方法public class TTT {private String id;private String name;public void setId(String id) {this.id = id;}public void setName(String

2015-07-13 14:31:47 400

转载 彻底了解mapreduce核心Shuffle--解惑各种mapreduce问题

本文合适和对mapreduce有一定了解,并且产生各种问题的同学,算是一个解惑篇。如果刚接触的话,这篇文章很有可能看不下去。建议先了解Hadoop简介(1):什么是Map/ReduceMapReduce 编程模型概述mapreduce是hadoop的核心之一,mapreduce经常让我们产生各种困惑,我们只是知道什么是map,什么是renduce,甚至我们已经熟悉了mapred

2015-07-13 13:49:45 366

转载 Hive性能调校

1.      设置hive.map.aggr=true,提高HiveQL聚合的执行性能。这个设置可以将顶层的聚合操作放在Map阶段执行,从而减轻清洗阶段数据传输和Reduce阶段的执行时间,提升总体性能。缺点:该设置会消耗更多的内存。注:顶层的聚合操作(top-levelaggregation operation),是指在group by语句之前执行的聚合操作。例如,

2015-07-08 17:46:22 497

转载 深入浅出数据仓库中SQL性能优化之Hive篇

深入浅出数据仓库中SQL性能优化之Hive篇http://www.aboutyun.com/thread-11349-1-1.html问题导读1、如何理解数据仓库中SQL之Hive整体优化?2、怎样对Job整体优化?3、如何减少Job数?摘要:Hive查询生成多个map reduce job,一个map reduce job又有map,reduce,

2015-07-08 16:07:23 746

翻译 让你真正明白什么是hive

导读:对于一个事物的认识,存在几种情况1.没有接触,不知道这个事物是什么,所以不会产生任何问题。2.接触了,但是不知道他是什么,反正我每天都在用。3.有一定的了解,不够透彻。那么hive,1.我们对它了解多少?2.它到底是什么?3.hive和hadoop是什么关系?扩展:hbase和hive是什么关系?Hive最初是应Facebook每天产生

2015-07-08 13:17:00 514

转载 让你彻底明白hive数据存储各种模式

问题导读1.hive数据分为那两种类型?2.什么表数据?3.什么是元数据?4.Hive表里面导入数据的本质什么?5.表、分区、桶之间之间的关系是什么?6.外部表和表的区别是什么?Hive的数据分为表数据和元数据,表数据是Hive中表格(table)具有的数据;而元数据是用来存储表的名字,表的列和分区及其属性,表的属性(是否为外部表等),表的数据所在目

2015-07-08 11:34:52 1735

转载 hive内部表与外部表区别详细介绍

问题导读:1.创建内部表与外部表的区别是什么?2.external关键字的作用是什么?3.外部表与内部表的区别是什么?4.删除表的时候,内部表与外部表有什么区别?5.load data local inpath '/home/wyp/data/wyp.txt' into table wyp;的过程是什么样子的?6.磁盘,hdfs,hive表他们之间的过程是什么样子的?

2015-07-08 10:31:30 1219

转载 Mapper过程中Combiner的作用

我们可以带着下面问题来阅读为什么需要在Mapper端进行归约处理?为什么可以在Mapper端进行归约处理?既然在Mapper端可以进行归约处理,为什么在Reducer端还要处理?我们知道,MapReduce是分为Mapper任务和Reducer任务,Mapper任务的输出,通过网络传输到Reducer任务端,作为输入。在Reduc

2015-07-03 11:37:25 674

转载 用 Ganglia 监控基于 Biginsights 的 HBase 集群性能

问题导读1.BigInsights和HBase的区别有哪些?2.Ganglia如何部署?      序言随着数据爆发式增长时代的来临,各种云计算平台也不断的被推广出来。IBM 开发了 BigInsights 云计算平台,该平台包括 Hadoop 和 HBase   等底层开源项目,它可以帮助企业从大量的数据中挖掘出隐藏的商业价值。BigInsight

2015-07-02 13:47:32 650

翻译 mapreduce任务执行过程详细分析--源码级分析

本人适合对mapreduce有一定经验人来阅读,对于新手来讲,只是阅读前面会有收获不少,但是到了后面就会有些看不懂,可以简单了解。如果对mapreduce有了半年的编程经验并且善于思考,或许这是一篇不错的文章。问题导读:1.mapreduce是一个分布式编程,那么他的输入参数是什么?2.mapreduce的起初key与value的来源是什么?3.map函数中key与valu

2015-07-01 14:25:26 4115 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除