自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 资源 (3)
  • 收藏
  • 关注

转载 Hadoop中CombineFileInputFormat详解

在MR实践中,会有很多小文件,单个文件产生一个mapper,资源比较浪费,后续没有reduce逻辑的话,会产生很多小文件,文件数量暴涨,对后续的hive job产生影响。所以需要在mapper中将多个文件合成一个split作为输入,CombineFileInputFormat满足我们的需求。CombineFileInputFormat 原理(网上牛人总结):第一

2015-03-31 19:49:48 570

转载 Protobuf java基础

本文档为java编程人员使用protocol buffer提供了一个基本的介绍,通过一个简单的例程进行介绍。通过本文,你可以了解到如下信息:1、在一个.proto文件中定义一个信息格式.2、使用protoc命令进行编译,生成java代码.3、使用Java protocol buffer API进行读写操作.l  定义proto文件以一个地址薄为例,从

2015-03-30 14:18:21 386

转载 Hadoop中MapReduce多种join实现实例分析

Hadoop中MapReduce多种join实现实例分析  一、概述对于RDBMS中的join操作大伙一定非常熟悉,写sql的时候要十分注意细节,稍有差池就会耗时巨久造成很大的性能瓶颈,而在Hadoop中使用MapReduce框架进行join的操作时同样耗时,但是由于hadoop的分布式设计理念的特殊性,因此对于这种join操作同样也具备了一定的特殊性。本文主要对MapRedu

2015-03-23 20:10:15 678

转载 mapreduce优化

Data MiningMapReduce FeaturesCountersBuilt-in Counters这些counters你在Web UI中,或是job结束后在控制台生成的统计报告中都看得到,根据名字你也能猜到这些counter是什么意思。分为3个Group:Map-Reduce FramewordMap input records,Map ski

2015-03-20 20:22:50 551

转载 MapReduce TotalOrderPartitioner 全局排序

MapReduce TotalOrderPartitioner 全局排序我们知道Mapreduce框架在feed数据给reducer之前会对map output key排序,这种排序机制保证了每一个reducer局部有序,Hadoop 默认的partitioner是HashPartitioner,它依赖于output key的hashcode,使得相同key会去相同reducer,

2015-03-20 18:35:22 797

转载 Mapreduce-Partition分析

Mapreduce-Partition分析Partition所处的位置Partition位置Partition主要作用就是将map的结果发送到相应的reduce。这就对partition有两个要求:1)均衡负载,尽量的将工作均匀的分配给不同的reduce。2)效率,分配速度一定要快。Mapreduce提供的PartitionerMapreduce默认

2015-03-20 18:22:07 399

转载 MapReduce:详解Shuffle过程

Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce, Shuffle是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大致的逻辑,反而越搅越混。前段时间在做MapReduce job 性能调优的工作,需要深入代码研究MapReduce的运行机制,这才对Shuffle探了个究竟。考虑到之前我在看相关资料而看不懂时很恼火,所以在这里

2015-03-19 23:25:29 320

转载 Pig 调优实践经验总结

Pig 调优实践经验总结1. pig.maxCombinedSplitSize 和 pig.splitCombination在实际使用PIG处理数据时,会经常要处理大批量的小文件。在这种情况下,如果不对Pig脚本进行任何特别设置,默认情况下很有可能会遇到类似这样的“命名空间超过配额限制”的错误:org.apache.Hadoop.hdfs.protocol.NSQuot

2015-03-19 16:16:50 625

转载 如何在hadoop中控制map的个数

如何在hadoop中控制map的个数    hadooop提供了一个设置map个数的参数mapred.map.tasks,我们可以通过这个参数来控制map的个数。但是通过这种方式设置map的个数,并不是每次都有效的。原因是mapred.map.tasks只是一个hadoop的参考数值,最终map的个数,还取决于其他的因素。     为了方便介绍,先来看几个名词:bloc

2015-03-19 15:46:33 397

db2导入文本数据的方法

db2数据导入db2数据导入db2数据导入db2数据导入db2数据导入db2数据导入db2数据导入db2数据导入db2数据导入db2数据导入db2数据导入db2数据导入db2数据导入db2数据导入db2数据导入

2010-12-22

cognos调优说明

本实例讲述了cognos调优的多种方法,难得的好资料

2010-06-01

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除