hadoop
guanhuai123
这个作者很懒,什么都没留下…
展开
-
MapReduce Join联结实现
一、背景早在8月份的时候,我就做了一些MR的Join查询,但是发现回北京之后,2个月不用,居然有点生疏,所以今天早上又花时间好好看了一下,顺便写下这个文档,以供以后查阅。二、环境JDK 1.6、Linux操作系统、hadoop0.20.2三、资料数据在做这个Join查询的时候,必然涉及数据,我这里设计了2张表,分别较data.txt和info.txt,字段之间以\t划分。d转载 2013-08-21 10:53:42 · 530 阅读 · 0 评论 -
Pig 调优实践经验总结
Pig 调优实践经验总结1. pig.maxCombinedSplitSize 和 pig.splitCombination在实际使用PIG处理数据时,会经常要处理大批量的小文件。在这种情况下,如果不对Pig脚本进行任何特别设置,默认情况下很有可能会遇到类似这样的“命名空间超过配额限制”的错误:org.apache.Hadoop.hdfs.protocol.NSQuot转载 2015-03-19 16:16:50 · 625 阅读 · 0 评论 -
如何在hadoop中控制map的个数
如何在hadoop中控制map的个数 hadooop提供了一个设置map个数的参数mapred.map.tasks,我们可以通过这个参数来控制map的个数。但是通过这种方式设置map的个数,并不是每次都有效的。原因是mapred.map.tasks只是一个hadoop的参考数值,最终map的个数,还取决于其他的因素。 为了方便介绍,先来看几个名词:bloc转载 2015-03-19 15:46:33 · 398 阅读 · 0 评论 -
MapReduce:详解Shuffle过程
Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce, Shuffle是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大致的逻辑,反而越搅越混。前段时间在做MapReduce job 性能调优的工作,需要深入代码研究MapReduce的运行机制,这才对Shuffle探了个究竟。考虑到之前我在看相关资料而看不懂时很恼火,所以在这里转载 2015-03-19 23:25:29 · 321 阅读 · 0 评论 -
Mapreduce-Partition分析
Mapreduce-Partition分析Partition所处的位置Partition位置Partition主要作用就是将map的结果发送到相应的reduce。这就对partition有两个要求:1)均衡负载,尽量的将工作均匀的分配给不同的reduce。2)效率,分配速度一定要快。Mapreduce提供的PartitionerMapreduce默认转载 2015-03-20 18:22:07 · 400 阅读 · 0 评论 -
mapreduce优化
Data MiningMapReduce FeaturesCountersBuilt-in Counters这些counters你在Web UI中,或是job结束后在控制台生成的统计报告中都看得到,根据名字你也能猜到这些counter是什么意思。分为3个Group:Map-Reduce FramewordMap input records,Map ski转载 2015-03-20 20:22:50 · 552 阅读 · 0 评论 -
MapReduce TotalOrderPartitioner 全局排序
MapReduce TotalOrderPartitioner 全局排序我们知道Mapreduce框架在feed数据给reducer之前会对map output key排序,这种排序机制保证了每一个reducer局部有序,Hadoop 默认的partitioner是HashPartitioner,它依赖于output key的hashcode,使得相同key会去相同reducer,转载 2015-03-20 18:35:22 · 797 阅读 · 0 评论 -
Hadoop中MapReduce多种join实现实例分析
Hadoop中MapReduce多种join实现实例分析 一、概述对于RDBMS中的join操作大伙一定非常熟悉,写sql的时候要十分注意细节,稍有差池就会耗时巨久造成很大的性能瓶颈,而在Hadoop中使用MapReduce框架进行join的操作时同样耗时,但是由于hadoop的分布式设计理念的特殊性,因此对于这种join操作同样也具备了一定的特殊性。本文主要对MapRedu转载 2015-03-23 20:10:15 · 678 阅读 · 0 评论 -
Hadoop中CombineFileInputFormat详解
在MR实践中,会有很多小文件,单个文件产生一个mapper,资源比较浪费,后续没有reduce逻辑的话,会产生很多小文件,文件数量暴涨,对后续的hive job产生影响。所以需要在mapper中将多个文件合成一个split作为输入,CombineFileInputFormat满足我们的需求。CombineFileInputFormat 原理(网上牛人总结):第一转载 2015-03-31 19:49:48 · 570 阅读 · 0 评论 -
数据倾斜
数据倾斜总结 在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。Hive的执行是分阶段的,map处理数据量的差异取决于上一个stage的redu转载 2015-01-27 11:27:01 · 557 阅读 · 0 评论 -
深度分析如何在Hadoop中控制Map的数量
分类: Hadoop2012-04-09 17:29 9549人阅读 评论(2) 收藏 举报hadooppathinputstringapi文档目录(?)[+]深度分析如何在Hadoop中控制Map的数量guibin.beijing@gmail.com很多文档中描述,Mapper的数量在默认情况下不可直接控制干预,因为Mapp转载 2014-11-03 19:20:49 · 347 阅读 · 0 评论 -
客户端用java api 远程操作HDFS以及远程提交MR任务(源码和异常处理)
两个类,一个HDFS文件操作类,一个是wordcount 词数统计类,都是从网上看来的。上代码:[java] view plaincopypackage mapreduce; import java.io.IOException; import java.util.ArrayList; import java.util.Li转载 2013-12-05 15:16:47 · 1259 阅读 · 0 评论 -
【pig】pig的vim高亮设置
1.到http://www.vim.org/scripts/script.php?script_id=2186下载pig.vim2. 拷贝pig.vim 安装目录/syntax/下 (如果不知道安装目录,可以用whereisvim来查找)3. 在vimrc文件里增加以下三行 (我们的系统都在/etc/vimrc下)augroup filetypedetect au原创 2013-08-12 12:04:16 · 848 阅读 · 0 评论 -
python编辑器对比和推荐
我先给一个初步的表格吧,大家如果有什么意见,或有补充,欢迎提出。有些我没有用过,先不写了。以下是我使用过的python IDE:除了PythonWin, VisualPython只支持Windows,其它都至少支持Win/Linux/Mac。各项含义:自动补全:变量/函数名打到一半时,提示可能的完整的变量/函数名。智能感知:在库/类/对象后打"."后,提示可能的函数转载 2013-08-12 13:42:20 · 759 阅读 · 0 评论 -
Python标准库(非常经典的各种模块介绍)
Python Standard Library翻译: Python 江湖群10/06/07 20:10:08 编译0.1. 关于本书0.2. 代码约定0.3. 关于例子0.4. 如何联系我们核心模块1.1. 介绍1.2. _ _builtin_ _ 模块1.3. exceptions 模块1.4. os 模块1.5. os.path 模块1.6.转载 2013-08-12 14:23:18 · 3718 阅读 · 0 评论 -
Pig性能优化
1. 尽早去除无用的数据 MapReduce Job的很大一部分开销在于磁盘IO和数据的网络传输,如果能尽早的去除无用的数据,减少数据量,会提升Pig的性能。 1). 尽早的使用Filter 使用Filter可以去除数据中无用的行(Record),尽早的Filter掉无用的数据,可以减少数据量,提升Pig性能。 2). 尽早的使用Project(Foreach Ge转载 2013-08-16 17:35:18 · 544 阅读 · 0 评论 -
Azkaban2官方配置文档
Azkaban2官方配置文档分类: Azkaban 学习笔记2013-10-07 20:24 193人阅读 评论(0) 收藏 举报最近工作实在是太忙了,我把之前翻译的官方的文档先放上来吧,希望对大家有所帮助~介绍Azkaban2新功能:1、Web UI2、简单工作流上传3、更容易设置job的依赖关系4、调度工作流5转载 2013-10-10 13:31:04 · 1029 阅读 · 0 评论 -
Hadoop Family Job Schedule----Azkaban
Hadoop Family Job Schedule----Azkaban分类: 云计算 多线程 HADOOP2013-09-04 14:43 59人阅读 评论(0) 收藏 举报Job Schedule 任务调度平台Hadoop工作流管理目录(?)[+]Hadoop Family JobSchedule----Azkaban1.1转载 2013-10-10 13:41:59 · 1054 阅读 · 0 评论 -
python hadoop 在streaming中获取文件名的方法 (参考java )适用: MRjob
python hadoop 在streaming中获取文件名的方法 (参考java )适用: MRjob分类: python hadoop2013-11-06 11:46 207人阅读 评论(2) 收藏 举报hadoopmrjobpythonstreamingfilename在hadoop的开发中,经常要根据streaming中不同的文件名做不同的处理,需要获取文件转载 2013-11-27 19:05:11 · 829 阅读 · 0 评论 -
Hadoop map reduce 过程获取环境变量
Hadoop map reduce 过程获取环境变量Hadoop任务执行过程中,在每一个map节点或者reduce节点能获取一下环境变量,利用这些变量可以为特殊的需求服务,例如:获取当前map节点处理的数据文件的路径。hadoop是java实现的,利用java可以很方便的获取相关环境变量,其内部包含在Context和MRJobConfig中(hadoop版本不一样,可能会有转载 2013-11-28 17:30:02 · 784 阅读 · 0 评论 -
hbase开发,hbase表操作及其java api实现
]开发环境hadoop: hadoop-1.1.2hbase: hbase-0.94.11-securityeclipse:Juno Service Release 2配置Eclipse 通过 Eclipse 创建一个新 Java 工程,右击项目根目录,选择“Properties> Java Build Path> Library>转载 2015-06-01 20:04:50 · 807 阅读 · 0 评论