hadoop
qinzl_1
这个作者很懒,什么都没留下…
展开
-
hadoop reducer二次分组
083 * 分区函数类。根据first确定Partition。084 */085public static class FirstPartitioner extends Partitioner<IntPair, IntWritable>086转载 2014-04-18 14:48:20 · 327 阅读 · 0 评论 -
MapReduce: 提高MapReduce性能的七点建议
转自:http://langyu.iteye.com/blog/916304Cloudera提供给客户的服务内容之一就是调整和优化MapReduce job执行性能。MapReduce和HDFS组成一个复杂的分布式系统,并且它们运行着各式各样用户的代码,这样导致没有一个快速有效的规则来实现优化代码性能的目的。在我看来,调整cluster或job的运行更像一个医生对待病人一样,找出关键的“症状”转载 2015-03-04 23:52:18 · 291 阅读 · 0 评论 -
MapReduce:默认Counter的含义
http://langyu.iteye.com/blog/1171091 MapReduce Counter为提供我们一个窗口:观察MapReduce job运行期的各种细节数据。今年三月份期间,我曾经专注于MapReduce性能调优工作,是否优化的绝大多评估都是基于这些Counter的数值表现。MapReduce自带了许多默认Counter,可能有些朋友对它们有些疑问,现在我分析转载 2015-03-01 22:40:27 · 258 阅读 · 0 评论 -
Hadoop权限管理
原文链接:http://dongxicheng.org/mapreduce/hadoop-permission-management/1. 介绍本文介绍的Hadoop权限管理包括以下几个模块:(1) 用户分组管理。用于按组为单位组织管理,某个用户只能向固定分组中提交作业,只能使用固定分组中配置的资源;同时可以限制每个用户提交的作业数,使用的资源量等(2) 作业管转载 2015-01-06 11:06:51 · 316 阅读 · 0 评论 -
Hadoop 性能调优 重要参数设置技巧
源地址:http://www.linuxidc.com/Linux/2012-12/76533.htm这里主要针对Mapreduce的性能调优。这一两个月在做mapreduce的性能调优,有些心得,还是要记下来的,以郷后人~这里主要涉及的参数包括:HDFS:dfs.block.sizeMapredure:io.sort.mbio.sort.spill.perce转载 2014-09-26 16:24:44 · 370 阅读 · 0 评论 -
Hadoop计算中的Shuffle过程
源地址:http://www.wnt.com.cn/html/news/tophome/top_xytd/top_xytd_jswz/bbs_service/20130711/111140562.htmlShuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce,Shuffle是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大转载 2014-09-26 10:16:28 · 328 阅读 · 0 评论 -
Hadoop中map数的计算
原地址:http://blog.csdn.net/xiaolang85/article/details/9064909Hadoop中在计算一个JOB需要的map数之前首先要计算分片的大小。计算分片大小的公式是:goalSize = totalSize / mapred.map.tasksminSize = max {mapred.min.split.size,minSp转载 2014-09-26 10:53:38 · 368 阅读 · 0 评论 -
Hadoop配置项整理
源地址:http://slaytanic.blog.51cto.com/2057708/1100974转载 2014-08-26 09:58:48 · 441 阅读 · 0 评论 -
HDFS数据压缩和解压
文件的压缩有两大好处:1、可以减少存储文件所需要的磁盘空间;2、可以加速数据在网络和磁盘上的传输。尤其是在处理大数据时,这两大好处是相当重要的。 下面是一个使用gzip工具压缩文件的例子。将文件/user/hadoop/aa.txt进行压缩,压缩后为/user/hadoop/text.gz 1 package com.hdfs; 2 3 import java.io转载 2014-05-29 14:58:30 · 474 阅读 · 0 评论 -
使用hadoop eclipse plugin提交Job并添加多个第三方jar(完美版)
通过 "conf.set("tmpjars", jars);" 可以设置第三方jar,之前一直只是添加一个jar,运行OK,今天打算添加多个jar的时候发现mapreduce在运行时找不到class(ClassNotFoundException),跟踪代码发现jar文件的确上传到了HDFS中,所以甚是无解,后来上传jar到hdfs,然后使用DistributedCache.addFileToCla转载 2014-04-25 20:19:44 · 385 阅读 · 0 评论 -
深入浅出数据仓库中SQL性能优化之Hive篇
转自:http://www.csdn.net/article/2015-01-13/2823530一个Hive查询生成多个Map Reduce Job,一个Map Reduce Job又有Map,Reduce,Spill,Shuffle,Sort等多个阶段,所以针对Hive查询的优化可以大致分为针对MR中单个步骤的优化(其中又会有细分),针对MR全局的优化,和针对整个查询(多MR Jo转载 2015-03-06 11:38:53 · 273 阅读 · 0 评论