hadoop
挣扎的菜鸟
这个作者很懒,什么都没留下…
展开
-
MapReduce:详解Shuffle过程
Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce, Shuffle是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大致的逻辑,反而越搅越混。前段时间在做MapReduce job 性能调优的工作,需要深入代码研究MapReduce的运行机制,这才对Shuffle探了个究竟。考虑到之前我在看相关资料而看不懂时很恼火,所以在这里转载 2013-10-31 09:39:59 · 461 阅读 · 0 评论 -
hadoop平台优化综述----转自董的博客
1. 概述随着企业要处理的数据量越来越大,MapReduce思想越来越受到重视。Hadoop是MapReduce的一个开源实现,由于其良好的扩展性和容错性,已得到越来越广泛的应用。Hadoop作为一个基础数据处理平台,虽然其应用价值已得到大家认可,但仍存在很多问题,以下是主要几个:(1) Namenode/jobtracker单点故障。 Hadoop采用的是转载 2014-03-07 11:21:38 · 712 阅读 · 0 评论 -
为Hadoop存储层增加对OpenStack Swift的支持
原文链接:为 Hadoop 的存储层增加对 OpenStack Swift 的支持编者按:为Hadoop的存储层增加对OpenStack Swift的支持后,即可直接使用Hadoop MapReduce及其相关工具直接分析存储在Swift中的数据。本文探讨了通过编写 Swift 适配器,将 OpenStack Swift 对象存储作为 Hadoop 的底层存储,为 Hadoop 的存储层增转载 2014-03-17 09:50:58 · 928 阅读 · 0 评论 -
让你真正明白什么是MapReduce组合式,迭代式,链式
问题导读:能够到这一步,说明已经对hadoop入门,并且产生问题。这个问题,似乎困惑了不少初学者。1.比如我们输出的mapreduce结果,需要进入下一个mapreduce,该怎么解决?可以使用迭代式2.那么什么是迭代式?3.什么是依赖式?4.什么是链式?5.三种模式各自的应用场景是什么?网上不少资料,但是对于新手,很难辨认,这里给大家指出这里面转载 2014-05-03 18:14:35 · 1794 阅读 · 0 评论 -
hadoop作业调优参数整理及原理
1 Map side tuning参数1.1 MapTask运行内部原理当map task开始运算,并产生中间数据时,其产生的中间结果并非直接就简单的写入磁盘。这中间的过程比较复杂,并且利用到了内存buffer来进行已经产生的部分结果的缓存,并在内存buffer中进行一些预排序来优化整个map的性能。如上图所示,每一个map都会对应存在一个内存buffer(MapOutpu转载 2014-04-21 14:48:28 · 455 阅读 · 0 评论 -
redHat linux下安装hadoop 0.20.2, 并在windows下远程连接此hadoop,开发调试
此文章的前提是:知道hadoop是什么,知道什么是分布式系统,了解hdfs和mapreduce的概念和原理。这里只是把笔者在学习hadoop过程中的一些经验和自己的看法分享一下。此文章包括两部分: 1、hadoop 在 redhat linux下的安装过程 网上有很多讲授在windows下通过Cygwin安装hadoop的,笔者认为hadoop原始设计转载 2014-04-21 15:32:29 · 508 阅读 · 0 评论 -
谈Hadoop下各技术应用场景
标签: hadoop hbase hive 流处理 it分类: 随笔文章数据采集和DataFlow对于数据采集主要分为三类,即结构化数据库采集,日志和文件采集,网页采集。对于结构化数据库,采用Sqoop是合适的,可以实现结构化数据库中数据并行批量入库到hdfs存储。对于网页采集,前端可以采用转载 2014-04-21 10:15:35 · 661 阅读 · 0 评论