hadoop
修行者 坚守者
Stay hungry Stay foolish
展开
-
简简单单的代码让你轻松学会 动态代理
转:http://weixiaolu.iteye.com/blog/1477774 简简单单的代码让你轻松学会动态代理 前言: 最近一直在分析hadoop的RPC机制。在hadoop中,DataNode和NameNode之间的控制信息的交流是通过RPC机制完成的,采用的是动态代理和java NIO(参考博客:http://weixi转载 2016-11-18 22:16:12 · 230 阅读 · 0 评论 -
[Hadoop源码详解]之一MapReduce篇之InputFormat
转:http://www.cnblogs.com/shitouer/archive/2013/02/28/hadoop-source-code-analyse-mapreduce-inputformat.html1. 概述我们在设置MapReduce输入格式的时候,会调用这样一条语句:1job.setInputFo转载 2016-10-11 17:00:09 · 234 阅读 · 0 评论 -
Hadoop之——MapReduce实战(一)
转:http://blog.csdn.net/l1028386804/article/details/45956487版权声明:本文为博主原创文章,未经博主允许不得转载。目录(?)[+]MapReduce概述MR执行流程MapReduce原理执行步骤map任务处理reduce任务处理mapreduce键值对格式WordCountApp的驱转载 2016-09-26 01:37:22 · 291 阅读 · 0 评论 -
hadoop中mapreducer的数据输入(InputFormat)原理详解
转:http://blog.csdn.net/qj19842011/article/details/40632241查看了hadoop 的源代码,终于搞明白MapReducer作业的数据输入原理,成果如下:Hadoop中MapReducer的作业的输入通过InputFormat接口提供;InputFormat提供的功能如下:将输入的文件,分成逻辑上的切片InputS转载 2016-10-11 15:50:44 · 425 阅读 · 0 评论 -
Hadoop学习总结之三:Map-Reduce入门
转:http://www.cnblogs.com/forfuture1978/archive/2010/11/14/1877086.html1、Map-Reduce的逻辑过程假设我们需要处理一批有关天气的数据,其格式如下:按照ASCII码存储,每行一条记录每一行字符从0开始计数,第15个到第18个字符为年第25个到第29个字符为温度,其中第25位是符号+/-转载 2016-09-25 10:50:41 · 271 阅读 · 0 评论 -
MapReduce 过程详解
转:http://wenku.baidu.com/link?url=MTyzcHMgymzcBCQOzm3y8vqiVp0Rh-sEuzAtckXFwXKw8xaJ-lk-7WXdcIB5_hHlJDrYHbxGaCGFHYlkJeDmPKtm57zzhtaYA5v5grlemHq Hadoop 越来越火,围绕Hadoop的子项目更是增长迅速,光Apache官网上列出来的就十几个,但是万变转载 2016-09-25 10:21:20 · 187 阅读 · 0 评论 -
MapReduce shuffle过程剖析及调优
转:http://blog.csdn.net/bingduanlbd/article/details/51933914版权声明:本文为博主原创文章,未经博主允许不得转载。 目录(?)[+]更新记录MapReduce简介Mapper端环形Buffer数据结构Spill合并Spill文件压缩通过HTTP暴露输出结果Reducer端内存中合并Copy过程中转载 2016-09-25 10:19:33 · 668 阅读 · 0 评论 -
hadoop运行原理之shuffle
转:http://www.cnblogs.com/gwgyk/p/3997849.html hadoop的核心思想是MapReduce,但shuffle又是MapReduce的核心。shuffle的主要工作是从Map结束到Reduce开始之间的过程。首先看下这张图,就能了解shuffle所处的位置。图中的partitions、copy phase、sort phase所代表的就是sh转载 2016-09-25 10:17:40 · 240 阅读 · 0 评论 -
hadoop之MapReduce输入(split)输出
转:http://www.cnblogs.com/Leo_wl/archive/2013/04/25/3042650.htmlSplit分割在执行mapreduce之前,原始数据被分割成若干split,每个split作为一个map任务的输入,在map执行过程中split会被分解成一个个记录(key-value对),map会依次处理每一个记录。(Key:偏移量,不是行数)转载 2016-10-09 14:03:41 · 294 阅读 · 0 评论 -
深入理解MapReduce的架构及原理
转:http://blog.csdn.net/u010330043/article/details/512007121. MapReduce 定义 Hadoop 中的 MapReduce是一个使用简单的软件框架,基于它写出来的应用程序能够运行在由上千个商用机器组成的大型集群上,并以一种可靠容错式并行处理TB级别的数据集2. MapReduce 特点 MapReduce 为什么转载 2016-10-09 13:59:01 · 1514 阅读 · 0 评论 -
hadoop 学习笔记:mapreduce框架详解
转:http://www.cnblogs.com/sharpxiajun/p/3151395.htmlhadoop 学习笔记:mapreduce框架详解 开始聊mapreduce,mapreduce是hadoop的计算框架,我学hadoop是从hive开始入手,再到hdfs,当我学习hdfs时候,就感觉到hdfs和mapreduce关系的紧密。这个可能是我做技术研转载 2016-09-26 10:44:56 · 268 阅读 · 0 评论 -
hadoop拾遗(一)---- 避免切分map文件
转:http://www.cnblogs.com/nocml/p/3292903.html 有些程序可能不希望文件被切分,而是用一个mapper完整处理每一个输入文件。例如,检查一个文件中所有记录是否有序,一个简单的方法是顺序扫描第一条记录并并比较后一条记录是否比前一条要小。如果将它实现为一个map任务,那么只有一个map操作整个文件时,这个算法才可行。 有二种办法可以转载 2016-10-12 15:27:24 · 1049 阅读 · 0 评论 -
自定义 hadoop MapReduce InputFormat 切分输入文件
转:https://my.oschina.net/leejun2005/blog/133424在上一篇中,我们实现了按 cookieId 和 time 进行二次排序,现在又有新问题:假如我需要按 cookieId 和 cookieId&time 的组合进行分析呢?此时最好的办法是自定义 InputFormat,让 mapreduce 一次读取一个 cookieId 下的所有转载 2016-10-12 15:37:01 · 325 阅读 · 0 评论 -
Hadoop中Writable和WritableComparable区别
转:http://www.cnblogs.com/likai198981/archive/2013/06/01/3112531.htmlHadoop的key和value的传递序列化需要涉及两个重要的接口Writable和WritableComparable1> Writable:void write(DataOutput out) throws转载 2016-11-18 19:13:36 · 271 阅读 · 0 评论 -
Hadoop Streaming 编程
转:http://dongxicheng.org/mapreduce/hadoop-streaming-programming/1、概述Hadoop Streaming是Hadoop提供的一个编程工具,它允许用户使用任何可执行文件或者脚本文件作为Mapper和Reducer,例如:采用shell脚本语言中的一些命令作为mapper和reducer转载 2016-11-18 18:44:50 · 265 阅读 · 0 评论 -
Hadoop问题小记
转:http://write.blog.csdn.net/postedit?ref=toolbar1.使用eclipse开发mapreduce程序,发现是跑在本地(LocalRunnerJob),而不是集群。解决方法:将程序打成jar包,然后使用hadoop命令行运行。打包用Fat jar这个工具将第三方jar包一起发布,不要勾选One-JAR.错误:Exception转载 2016-10-13 17:19:09 · 365 阅读 · 0 评论 -
单个文件的压缩或解压
转:http://www.aboutyun.com/thread-11070-1-1.html import java.io.FileInputStream;import java.io.FileOutputStream;import java.io.IOException;import java.io.Inpu转载 2016-10-13 16:24:09 · 437 阅读 · 0 评论 -
MapReduce: map读取文件的过程
转:http://www.cnblogs.com/silva/p/4490532.html我们的输入文件 hello0, 内容如下:xiaowang 28 shanghai@_@zhangsan 38 beijing@_@someone 100 unknown 逻辑上有3条记录, 它们以@_@分隔. 我们看看数据是如何被map读取的...转载 2016-10-13 16:20:13 · 452 阅读 · 0 评论 -
HDFS中的压缩与解压缩机制
转:http://blog.csdn.net/u011491148/article/details/9966369概述我们可以把数据文件压缩后再存入HDFS,以节省存储空间。但是,在使用MapReduce处理压缩文件时,必须考虑压缩文件的可分割性。目前,Hadoop支持以下几种压缩格式压缩格式UNIX工具算 法文件扩展名支持转载 2016-10-13 14:58:59 · 5213 阅读 · 0 评论 -
CDH5.2的Maven依赖
转:http://www.th7.cn/Program/Java/201411/316694.shtml之前一直结合Maven开发Hadoop2.2.0的程序,环境换成CDH5.2后报错,发现是Maven依赖库的问题。之前一直使用http://mvnrepository.com/查找maven依赖,但这类网站只能查到通用的maven依赖,没有包含CD转载 2016-10-13 14:57:05 · 907 阅读 · 0 评论 -
Oozie作业调度
转:http://wenku.baidu.com/link?url=DsWP10DnuCbgX-u-wVf0FVNEs-bIuf2Je9kf9szy7l_qL19a3gbBYrfCkicE-flIku4Ve0AjCqW18aWLrh34-y5B51GdX_aPAuNz3uYmGge转载 2016-11-03 14:00:01 · 271 阅读 · 0 评论 -
自定义MapReduce的InputFormat,提取指定开始与结束限定符间的内容
转:http://blog.csdn.net/kent7306/article/details/49443899一、需求:在编写MapReduce程序时,常用的TextInputFormat是以换行符作为Record分隔符的,即该行的内容作为MapReduce中map方法中的value,而该行头在文件中的偏移值作为key。但是在实际应用中,我们在提取日志内容时,有可能遇转载 2016-10-12 15:43:49 · 757 阅读 · 0 评论 -
hadoop 文件分块,block与split关系
转:http://blog.csdn.net/soony_007/article/details/12522619Hadoop的分块有两部分,其中第一部分更为人熟知一点。 第一部分就是数据的划分(即把File划分成Block),这个是物理上真真实实的进行了划分,数据文件上传到HDFS里的时候,需要划分成一块一块,每块的大小由hadoop-default.xml里配置选项转载 2016-10-09 13:57:45 · 698 阅读 · 0 评论 -
Hadoop编码解码【压缩解压缩】机制详解(1)
转:http://www.cnblogs.com/mrcharles/p/5070949.html想想一下,当你需要处理500TB的数据的时候,你最先要做的是存储下来。你是选择源文件存储呢?还是处理压缩再存储?很显然,压缩编码处理是必须的。一段刚刚捕获的60分钟原始视屏可能达到2G,经过压缩处理可以减至500MB左右,一张单反照片可能有5MB,经过压缩之后只有400KB,而质量转载 2016-10-09 10:31:00 · 458 阅读 · 0 评论 -
Eclipse:Run on Hadoop 没有反应
转:http://www.linuxidc.com/Linux/2012-05/60784.htmEclipse:Run on Hadoop 没有反应原因:hadoop-0.20.2下自带的eclise插件已过时。解决方案:1、下载正确的插件:https://issues.apache.org/jira/secure/attachment/12460491/ha转载 2016-02-17 09:33:41 · 312 阅读 · 0 评论 -
Cygwin上Eclipsef运行Hadoop遇到的有关问题
Cygwin上Eclipsef运行Hadoop遇到的有关问题Cygwin下Eclipsef运行Hadoop遇到的问题 下午终于在Eclispe下面调通hasoop的WordCount例子了,期间碰到了很多的问题,有些是环境的问题,有些是配制问题。这里分享一下我碰到的问题。 0.我的系统环境: win7操作系统 Cygwin转载 2016-02-16 21:55:16 · 344 阅读 · 0 评论 -
Hadoop:hadoop.job.ugi
转:http://my.oschina.net/ale0512/blog/55003关于eclipse下连接hadoop出现error null问题如果Hadoop用户标识不同于客户机上的用户账号,可以通过hadoop.job.ugi属性来显式设定Hadoop用户名和组名。 用户名和组名之间有半角逗号隔开例如:preston,diecotrs,invento转载 2016-02-16 17:49:27 · 1728 阅读 · 0 评论 -
myeclipse配置hadoop开发环境,及遇到问题解决
转:http://www.dataguru.cn/thread-203560-1-1.html参见myeclipse配置hadoop开发环境,及遇到问题解决http://f.dataguru.cn/thread-199557-1-1.htmlorg.apache.hadoop.security.AccessControlException:Permission denied:user=转载 2016-02-16 10:36:38 · 853 阅读 · 0 评论 -
如何使用Maven构建《hadoop权威指南3》随书的源码包
《hadoop:the definitive guide 3th》中的例子默认提供了一种编译和构建jar包方法——maven,如果没有maven你会发现编译测试随书的源码会非常的麻烦(至少在命令行下),当然你也可以使用eclipse导入随书的源码再自己一个个的添加依赖性jar包(恐怕也不太容易)。不过还好有非常好的开源的软件项目管理工具来帮助我们做这些无关于程序本身设计与架构的琐碎的工作,那就是m转载 2016-02-15 21:40:21 · 339 阅读 · 0 评论 -
如何在windows上使用eclipse远程连接hadoop进行程序开发
由于hadoop主要是部署和应用在linux环境中的,但是目前鄙人自知能力有限,还无法完全把工作环境转移到linux中去(当然还有点小私心啦,windows下那么多好用的程序到linux下用不了还真有点心疼——比如说快播,O(∩_∩)O~),于是便想着用eclipse来远程连接hadoop进行开发,摸索了一番,下面是其步骤: 1. 首先把hadoop-eclipse-plugin-1.0转载 2016-02-15 21:38:52 · 402 阅读 · 0 评论 -
Hadoop基础 hadoop fs 命令
版权声明:本文为博主原创文章,未经博主允许不得转载。1,hadoop fs –fs [local | ]:声明hadoop使用的文件系统,如果不声明的话,使用当前配置文件配置的,按如下顺序查找:hadoop jar里的hadoop-default.xml->$HADOOP_CONF_DIR下的hadoop-default.xml->$HADOOP_CONF_DIR下的hadoop-si转载 2016-01-12 19:08:35 · 256 阅读 · 0 评论 -
ssh密钥认证原理
转:http://www.tuicool.com/articles/qyiyimSSH之所以能够保证安全,原因在于它采用了公钥加密。整个ssh密码登录过程是这样的:1)用户向远程主机发登录请求:ssh user@远程主机2)远程主机收到用户的登录请求,把自己的公钥发给用户。2)用户使用这个公钥,将登录密码加密后,发送回远程主机。3)远程主机用自己的私转载 2016-02-05 18:37:24 · 357 阅读 · 0 评论 -
Hadoop配置项整理(hdfs-site.xml)
转:http://slaytanic.blog.51cto.com/2057708/1101111/续上篇整理一下hdfs相关的配置项 name valueDescription dfs.default.chunk.view.size32768namenode的http访问页面中针对每个文件的内容显示大小,通常转载 2016-02-06 11:13:44 · 321 阅读 · 0 评论 -
实战 windows7 下 eclipse 远程调试 linux hadoop
转:http://my.oschina.net/leejun2005/blog/122775实战 windows7 下 eclipse 远程调试 linux hadoop恩,之所以有这篇博客,是因为最近又有童鞋咨询怎么在 windows 7 下用eclipse远程调试部署在linux下的hadoop,其实我自己不这么混搭的,既然有童鞋这么问了,那我就索性随着折腾一把了。转载 2016-02-17 10:32:45 · 640 阅读 · 0 评论 -
在Linux下基于Eclipse的Hadoop应用开发环境配置
转:http://www.cnblogs.com/flyoung2008/archive/2011/12/09/2281400.html基于Eclipse的Hadoop应用开发环境配置我的开发环境:操作系统centos5.5 一个namenode 两个datanodeHadoop版本:hadoop-0.20.203.0Eclipse版本:eclipse-java-helio转载 2016-02-17 10:56:27 · 435 阅读 · 0 评论 -
MapReduce提交作业常见问题
转:http://yu06206.iteye.com/blog/1402084今天在hadoop集群上跑MapReduce程序,遇到的一些问题和解决的方法,希望对大家有帮助!1.从HDFS上传下载文件到第一种错误:Java代码 "font-size: medium;">Exception inthread"main"java.lang.Ille转载 2016-02-17 11:33:46 · 410 阅读 · 0 评论 -
mapreduce的reduce输出文件进行压缩
转:http://tydldd.iteye.com/blog/2053946 hadoop对每个压缩格式的支持,详细见下表: 压缩格式 工具 算法 文件扩展名 多文件 可分割性 DEFLATE 无 DEFLATE .deflate 不 不 gzip转载 2016-10-09 10:25:06 · 2232 阅读 · 0 评论 -
Hadoop在MapReduce中使用压缩详解
转:http://www.cnblogs.com/ggjucheng/archive/2012/04/22/2465580.html hadoop对于压缩文件的支持hadoop对于压缩格式的是透明识别,我们的MapReduce任务的执行是透明的,hadoop能够自动为我们 将压缩的文件解压,而不用我们去关心。 如果我们压缩的文件有相应压缩格式的扩展名(比如lzo转载 2016-10-09 10:24:37 · 303 阅读 · 0 评论 -
hadoop0.20 sqoop1.2搭建
转:http://blog.csdn.net/lichangzai/article/details/8542613http://www.cnblogs.com/Richardzhu/p/3322635.htmlhttp://www.linuxidc.com/Linux/2013-05/84082.htmhttp://www.linuxidc.com/转载 2016-03-21 10:09:27 · 189 阅读 · 0 评论 -
namenode fsimage edits
fsimage保存了最新的元数据检查点。edits保存自最新检查点后的命名空间的变化。2、工作原理:从最新检查点后,hadoop将对每个文件的操作都保存在edits中,为避免edits不断增大,secondary namenode就会周期性合并fsimage和edits成新的fsimage,edits再记录新的变化。这种机制有个问题:因edits存放在Namenod转载 2016-02-19 10:50:28 · 267 阅读 · 0 评论