hadoop
文章平均质量分 79
wangjinyuan161
这个作者很懒,什么都没留下…
展开
-
mapreduce 与mysql 交互
MapReduce与MySQL交互分类: hadoop之旅2012-08-29 16:12 377人阅读 评论(0) 收藏 举报mapreducemysql数据库hadoopstringjdbc 目录(?)[+] MapReduce技术推出后,曾遭到关系数据库研究者的挑剔和批评,认为MapReduce不具备有类似于关系数据库中的结构化数据...原创 2014-05-26 11:24:20 · 151 阅读 · 0 评论 -
hadoop 额外的classpath设置
在 $HADOOP_HOME/conf/vim hadoop-env.sh for f in $HADOOP_HOME/lib/*.jar; do if [ "$HADOOP_CLASSPATH" ]; then export HADOOP_CLASSPATH=$HADOOP_CLASSPATH:$f else export HAD...原创 2014-04-15 19:15:38 · 1067 阅读 · 1 评论 -
hadoop之MapReduce自定义二次排序流程实例详解
原博客地址:http://zengzhaozheng.blog.51cto.com/8219051/1379271 hadoop之MapReduce自定义二次排序流程实例详解一、概述 MapReduce框架对处理结果的输出会根据key值进行默认的排序,这个默认排序可以满足一部分需求,但是也是十分有限的。在我们实际的需求当中,往往有要对reduce输出结果进行...原创 2015-08-26 16:21:20 · 150 阅读 · 0 评论 -
Hadoop如何计算map数和reduce数
Hadoop如何计算map数和reduce数 原地址:http://www.songyafei.cn/post/a0d5b_140a7cfHadoop在运行一个mapreduce job之前,需要估算这个job的maptask数和reducetask数。首先分析一下job的maptask数,当一个job提交时,jobclien...原创 2015-10-15 14:56:38 · 115 阅读 · 0 评论 -
hadoop作业调优参数整理及原理
文章出处:http://www.alidata.org/archives/14701 Map side tuning参数1.1 MapTask运行内部原理当map task开始运算,并产生中间数据时,其产生的中间结果并非直接就简单的写入磁盘。这中间的过程比较复杂,并且利用到了内存buffer来进行已经产生的部分结果的缓存,并在内存buffer中进行一些预排序来优化整个map的性...原创 2014-10-27 17:20:36 · 75 阅读 · 0 评论 -
hadoop distributecache新api与旧api用法
转载请注明出处:http://www.codelast.com/现象:和这个帖子描述的一样,简单说来就是,在Hadoop 2.x上,用新的DistributedCache的API,在mapper中会获取不到这个cache文件。下面就详细地描述一下新旧API的用法区别以及解决办法。『1』旧API将HDFS文件添加到distributed cache中:12...原创 2014-10-28 11:45:35 · 135 阅读 · 0 评论 -
MapReduce任务参数调优
MapReduce任务参数调优本文主要记录Hadoop 2.x版本中MapReduce参数调优,不涉及Yarn的调优。Hadoop的默认配置文件(以cdh5.0.1为例):core-default.xmlhdfs-default.xmlmapred-default.xml说明:在hadoop2中有些参数名称过时了,例如原来的mapred.reduc...原创 2014-10-30 19:58:40 · 530 阅读 · 0 评论 -
hadoop shell 命令详
Hadoop Shell命令FS ShellcatchgrpchmodchowncopyFromLocalcopyToLocalcpdudusexpungegetgetmergelslsrmkdirmovefromLocalmvputrmrmrsetrepstattailtestt...原创 2014-11-07 18:12:49 · 82 阅读 · 0 评论 -
mapreduce二次排序原理讲解
一.概述 关于二次排序的文章,网上很多,比喻http://www.cnblogs.com/xuxm2007/archive/2011/09/03/2165805.html就写的不错。在此文基础上补充几点。 二.job.setPartitionerClass在什么地方被用到 mapper里每一次write,都会调用到Java代码 coll...原创 2014-11-08 18:20:00 · 550 阅读 · 0 评论 -
MapReduce源码分析之架构分析1
原博客http://blog.csdn.net/chlaws/article/details/23709571 前言 MapReduce的源码分析是基于Hadoop1.2.1基础上进行的代码分析。 本篇,将不会涉及代码部分的分析,只是简单分析map的整体架构,并介绍map与reduce的运行过程,主要是为后续的分析做一个铺垫。至于 MapTask/ReduceTask...原创 2014-11-11 15:31:07 · 107 阅读 · 0 评论 -
MapReduce源码分析之MapTask分析
原博客地址http://blog.csdn.net/chlaws/article/details/37742597 前言 MapReduce的源码分析是基于Hadoop1.2.1基础上进行的代码分析。 该章节会分析在MapTask端的详细处理流程以及MapOutputCollector是如何处理map之后的collect输出的数据。map端的主要处理流程...原创 2014-11-11 15:34:50 · 156 阅读 · 0 评论 -
MapReduce源码分析之MapTask分析
原博客地址http://blog.csdn.net/chlaws/article/details/37742597 前言 MapReduce的源码分析是基于Hadoop1.2.1基础上进行的代码分析。 该章节会分析在MapTask端的详细处理流程以及MapOutputCollector是如何处理map之后的collect输出的数据。map端的主要处理流程...原创 2014-11-12 12:20:41 · 118 阅读 · 0 评论 -
hadoop fs -count的结果含义
hadoop fs -count的结果含义最近要对hdfs上空间使用和文件结点使用增加报警,当超过一定的限额的时候就要发报警好通知提前准备。[sunwg]$ hadoop fs -count /sunwg 2 1 108 hdfs://sunwg:9000/sunwg第一个数值2表示/sunwg下的文件夹的个数,第二个数值1表是当前...原创 2015-04-01 18:45:20 · 389 阅读 · 0 评论 -
Mapreduce多目录/多文件输出
Mapreduce多目录/多文件输出 一,介绍1,旧API中有 org.apache.hadoop.mapred.lib.MultipleOutputFormat和org.apache.hadoop.mapred.lib.MultipleOutputsMultipleOutputFormat allowing to write the output data to differe...原创 2014-08-28 10:34:19 · 605 阅读 · 0 评论 -
mapreduce处理结果向输出至mysql(直接插入/更新/追加式更新)
mapreduce处理结果向输出至mysql(直接插入/更新/追加式更新)mapreducemysqlupdate Java代码 package cn.m15.ipj.job.usergroup; Mapreduce处理结果向输出至mysql 1.写入mysql <1>job中输出的配置:...原创 2014-05-26 11:33:54 · 342 阅读 · 0 评论 -
Hadoop_Map中获取当前spilt文件名
Hadoop_Map中获取当前spilt文件名分类: hadoop mapreduce2012-07-18 09:59 3223人阅读 评论(0) 收藏 举报hadoopstringmapreducepath测试有时候需要在Map类中的map函数中获取当前split所读取的文件名。在旧版mapred下面实现方法如下:// 获得输入文件的路径名String...原创 2014-06-11 11:57:49 · 78 阅读 · 0 评论 -
MapReduce,组合式,迭代式,链式(转载)
MapReduce,组合式,迭代式,链式(转载)博客分类: MapReducemapreduce MapReduce,组合式,迭代式,链式 前面介绍一些怎样用户类制定自己的类,来达到减少中间数据:http://www.cnblogs.com/liqizhou/archive/2012/05/14/2499498.html1.迭代式map...原创 2014-06-13 18:45:13 · 90 阅读 · 0 评论 -
MapReduce的自制Writable分组输出及组内排序
MapReduce的自制Writable分组输出及组内排序2013-09-03 10:50:51问题描述:输入文件格式如下:name1 2name3 4name1 6name1 1name3 3name1 0要求输出的文件格式如下:name1 0,1,2,6name3 3,4...原创 2014-06-17 10:56:41 · 123 阅读 · 0 评论 -
Hadoop源码解析之: TextInputFormat如何处理跨split的行
Hadoop源码解析之: TextInputFormat如何处理跨split的行2013-07-19 14:44 1767人阅读 评论(0) 收藏 举报hadoopsplitTextInputFormat跨split我们知道hadoop将数据给到map进行处理前会使用InputFormat对数据进行两方面的预处理: 对输入数据进行切分,生成一组split...原创 2014-06-26 12:19:56 · 182 阅读 · 0 评论 -
总结hadoop mapreduce job添加第三方依赖的方法
总结hadoop mapreduce job添加第三方依赖的方法hadoopclasspathmapreduce 最近在开发mapreduce程序,输入有hdfs、hbase形式,输出有hdfs、mysql等形式。碰到了如何添加第三方依赖jar的问题,在网上查了很多资料,记录下来,免得再走弯路。 下面所有方法基于hadoop-1.0.1版本实现,其它版本可能略有不同。 总结了...原创 2014-07-11 14:36:50 · 397 阅读 · 0 评论 -
MapReduce执行过程
MapReduce执行过程 2011-07-12 17:06:28| 分类: 默认分类 | 标签:mapreduce执行过程 |举报|字号 订阅 1、Map-Reduce的逻辑过程假设我们需要处理一批有关天气的数据,其格式如下:按照ASCII码存储,每行一条记录每一行字符从0开始计数,第15个到第18个字符为年第25个到第29个字...原创 2014-07-11 15:45:41 · 113 阅读 · 0 评论 -
Yarn的JVM重用功能——uber
Yarn的JVM重用功能——uber在文章开头,我想先做几点说明:1、本文的内容来自我对Yarn的相应功能的理解和实践。而我对该部分功能的理解主要来自对Hadoop的开发者之前相应言论的分析,并且我也将我的分析发给了Hadoop community, 并得到了Yarn的创始人兼架构师Arun Murthy的肯定回复。2、本文中uber的配置部分,主要参考之前Hadoop开发者的...原创 2014-08-27 10:55:24 · 91 阅读 · 0 评论 -
开发MapReduce常见问题
(1)当你把一个文件加入distribution cache的时候,要注意:如果你是以addCacheFile()的方式添加的,而你在mapper中取出来的时候,却是以archive的方式取出来——getLocalCacheArchives(),那么,你将得不到cache文件的路径,因为放进去和取出来的方式要一致。(2)在mapper中获取当前正在处理的HDFS文件名/HDFS目录名有...原创 2014-08-27 14:10:12 · 315 阅读 · 0 评论 -
MapReduce设置参数防止超时
MapReduce设置参数防止超时1. 如果碰到异常“Task attempt failed to report status for xxx seconds. Killing!”,最可能是碰到死循环了。2. 如果没有死循环:控制超时的属性是:mapred.task.timeout,默认600000ms,即600s。可以设置成更大的值。可以直接在Jobconf或Configurat...原创 2014-08-27 14:47:33 · 296 阅读 · 0 评论 -
探索Hadoop OutputFormat
OutputFormats是做什么的?OutputFormt接口决定了在哪里以及怎样持久化作业结果。Hadoop为不同类型的格式提供了一系列的类和接口,实现自定义操作只要继承其中的某个类或接口即可。你可能已经熟悉了默认的OutputFormat,也就是TextOutputFormat,它是一种以行分隔,包含制表符界定的键值对的文本文件格式。尽管如此,对多数类型的数据而言,如再常见不过的数字...原创 2014-08-28 10:21:15 · 92 阅读 · 0 评论 -
Hadoop源代码分析(MapTask辅助类 I)
原博客地址http://caibinbupt.iteye.com/blog/401374 http://www.cnblogs.com/ggjucheng/archive/2013/02/20/2917799.htmlmapTask的辅助类主要针对Mapper的输入和输出。首先我们来看MapTask中用的的Mapper输入,在类图中,这部分位于右上角。MapTask.Trac...原创 2014-11-12 12:21:16 · 99 阅读 · 0 评论