大数据-离线计算-Hadoop
五柳-先生
宅边有五柳树,因以为号焉。
展开
-
hadoop 9000端口不通判断
hadoop搭建完毕后,9000端口不能正常访问,namenode上telnet自己的9000端口居然不通,namenode不能正常搭载datanode。 看端口nestata -ano 发现9000端口是用的ipv6的格式,关闭ipv6格式,重启机器,搞定。 下面是datanode到namenode不通的log2013-08-28 17:51:31,202 INFO or转载 2014-03-15 10:39:45 · 2432 阅读 · 0 评论 -
Hadoop MapReduce高级编程
第一部分:重要的组件Combiner•什么是Combiner•combine函数把一个map函数产生的对(多个key, value)合并成一个新的. 将新的作为输入到reduce函数中,其格式与reduce函数相同。•这样可以有效的较少中间结果,减少网络传输负荷。 •什么情况下可以使用Combiner•可以对记录进行汇总统计的场景转载 2014-08-06 23:44:15 · 595 阅读 · 0 评论 -
如何使用Hadoop的ChainMapper和ChainReducer
Hadoop的MR作业支持链式处理,类似在一个生产牛奶的流水线上,每一个阶段都有特定的任务要处理,比如提供牛奶盒,装入牛奶,封盒,打印出厂日期,等等,通过这样进一步的分工,从而提高了生产效率,那么在我们的Hadoop的MapReduce中也是如此,支持链式的处理方式,这些Mapper像Linux管道一样,前一个Mapper的输出结果直接重定向到下一个Mapper的输入,形成一个流水线,而这一点与L转载 2014-08-06 23:33:50 · 624 阅读 · 0 评论 -
mapreduce编程(二)- 大象书中求每一年的最高温度
书上的例子是为了取出一年当中气温最高的值,那么将年份和气温做了一个复合的key. 1 通过设置了partitioner来进行分区。因为分区是按照年份来进行,所以同年的数据就可以分区到一个reducer中。2 自定义key比较器,按照年份升序,温度值降序。这样map输出的所有kv对就是按照年份升序,温度值降序排列的。3 自定义分组比较器,所有同一年的数据属于同一个组,那么在reduce输转载 2014-08-07 00:05:29 · 800 阅读 · 0 评论 -
hadoop,用户制定类
mapreduce是一个很精巧的构思和设计,对于很多计算问题,程序员通常可以使用默认设置取处理诸多底层的细节,但是,这并不意味着在解决复杂问题时,程序员就可以完全使用这二个函数就可以搞定一切,它还需要更加复杂和灵活的处理机制以及高级的编程技术和方法。本节介绍hadoop中mapreduce比较高级的方法---用户制定类。为什么要用户自定义类,一种直观的猜测就是基本的mapreduce处理不了或者处转载 2014-08-07 17:25:21 · 511 阅读 · 0 评论 -
从Hadoop框架与MapReduce模式中谈海量数据处理(含淘宝技术架构)
从hadoop框架与MapReduce模式中谈海量数据处理前言 几周前,当我最初听到,以致后来初次接触Hadoop与MapReduce这两个东西,我便稍显兴奋,觉得它们很是神秘,而神秘的东西常能勾起我的兴趣,在看过介绍它们的文章或论文之后,觉得Hadoop是一项富有趣味和挑战性的技术,且它还牵扯到了一个我更加感兴趣的话题:海量数据处理。 由此,最近凡是空转载 2014-08-06 23:27:18 · 670 阅读 · 0 评论 -
Hadoop计算能力调度器应用和配置
需求公司里有两个部门,一个叫hive,一个叫pig,这两个部门都需要使用公司里的hadoop集群。于是问题来了,因为hadoop默认是FIFO调度的,谁先提交任务,谁先被处理,于是hive部门很担心pig这个部门提交一个耗时的任务,影响了hive的业务,hive希望可以和pig在高峰期时,平均使用整个集群的计算容量,互不影响。思路hadoop的默认调度器是FIFO,但是也有计算容量调度转载 2014-08-04 09:30:57 · 555 阅读 · 0 评论 -
Hadoop&Hbase 双机热备 --Pacemaker&DRBD部署
abc转载 2014-04-09 22:29:40 · 942 阅读 · 0 评论 -
在CentOS上安装Hadoop集群
本文主要参考官网的文档,Hadoop 1.2.1 Getting Started1 单机模式(Standalone Mode)为了能顺利安装成功,我们先练习在单台机器上安装Hadoop。在单台机器上,可以配置成单机模式(Standalone Mode)和伪分布式模式(Pseudo-Distributed Mode),参考官方文档Single Node Setup。1.1 下载Hadoo转载 2014-03-26 23:55:01 · 777 阅读 · 0 评论 -
hadoop 学习笔记:mapreduce框架详解
开始聊mapreduce,mapreduce是hadoop的计算框架,我学hadoop是从hive开始入手,再到hdfs,当我学习hdfs时候,就感觉到hdfs和mapreduce关系的紧密。这个可能是我做技术研究的思路有关,我开始学习某一套技术总是想着这套技术到底能干什么,只有当我真正理解了这套技术解决了什么问题时候,我后续的学习就能逐步的加快,而学习hdfs时候我就发现,要理解hadoop框架转载 2014-03-15 10:22:23 · 543 阅读 · 0 评论 -
Hive与数据库的异同
摘要:由于Hive采用了SQL的查询语言HQL,因此很容易将Hive理解为数据库。其实 从结构上来看,Hive和数据库除了拥有类似的查询语言,再无类似之处。本文将从多个方面来阐述Hive和数据库的差异。数据由于Hive采用了SQL的查询语言HQL,因此很容易将Hive理解为数据库。其实 从结构上来看,Hive和数据库除了拥有类似的查询语言,再无类似之处。本文将从多个方面来阐述Hive和数据库的转载 2014-03-20 00:13:26 · 901 阅读 · 0 评论 -
hdfs shell
HDFS(Hadoop Distributed Filesystem)提供一个类似于Unix Shell的命令接口FSShell,用于client和HDFS进行数据交互。调用FSShell命令的方式:$HADOOP_HOME/bin/hadoop fs 其中,$ HAOOP_HOME指hadoop所在的目录。所有的的FS shell命令使用URI路径作为参数。URI格式是scheme://转载 2014-03-20 00:14:18 · 696 阅读 · 0 评论 -
分布式服务框架 Zookeeper -- 管理分布式环境中的数据
安装和配置详解本文介绍的 Zookeeper 是以 3.2.2 这个稳定版本为基础,最新的版本可以通过官网 http://hadoop.apache.org/zookeeper/来获取,Zookeeper 的安装非常简单,下面将从单机模式和集群模式两个方面介绍 Zookeeper 的安装和配置。单机模式单机安装非常简单,只要获取到 Zookeeper 的压缩包并解压到某个目录如:/转载 2014-03-22 00:51:56 · 499 阅读 · 0 评论 -
HDFS读取副本的选择策略
HDFS对文件的存储是分块来存储的,即HDFS对于客户端写入的数据先按照固定大小对这些数据进行分块,然后把每一个数据块的多个副本存储在不同的DataNode节点上,同时不同的数据块也可能存储在不同的DataNode节点上。那么,当客户端要从HDFS上读取某个文件时,它又是如何处理的呢?一个数据块有多个副本,客户端到底优先读取那个DataNode节点上的该数据块的副本呢?这将是本要所要讨论的重点了,转载 2014-03-22 00:53:30 · 825 阅读 · 0 评论 -
Hadoop多用户的配置(Hadoop 1.x)
通常,我们会把这个集群共享给多个用户,而不是让大家都登录为hadoop,这样做有几个好处:一个用户不能修改另一个用户的的文件在hadoop web管理页面,可以很方便的看到不同的用户的job现在集群中有一台机器,上面有一个用户名为 hbase 的用户,他想要使用hadoop集群,怎么配置呢?1. 安装hadoop客户端1.1 下载,解压下载跟hadoop集群一样的hadoo转载 2014-03-26 23:55:30 · 1034 阅读 · 0 评论 -
在CentOS上安装Hadoop 2.x 集群
环境:CentOS 6.5, OPenJDK 1.7, Hadoop 2.2.0本文主要参考官网的文档,Hadoop 2.2.0 Single Node Setup,Hadoop 2.2.0 Cluster Setup(可选)创建新用户一般我倾向于把需要启动daemon进程,对外提供服务的程序,简单的说,就是服务器类程序,安装在单独的用户下面。这样可以做到隔离,运维方面,安全性也提转载 2014-03-26 23:55:57 · 971 阅读 · 0 评论 -
Hadoop MapReduce工作原理
第一部分:MapReduce工作原理 MapReduce 角色•Client :作业提交发起者。•JobTracker: 初始化作业,分配作业,与TaskTracker通信,协调整个作业。•TaskTracker:保持JobTracker通信,在分配的数据片段上执行MapReduce任务。提交作业•在作业提交之前,需要对作转载 2014-08-06 23:40:20 · 633 阅读 · 0 评论 -
hadoop 打印配置变量
package my.test;import java.util.Map.Entry;import org.apache.hadoop.conf.*; import org.apache.hadoop.mapreduce.Job;import org.apache.hadoop.util.*; // ConfigPrinter:print all settings and prope转载 2014-08-07 00:12:48 · 1411 阅读 · 0 评论 -
mapreduce编程(一)-二次排序
mr自带的例子中的源码SecondarySort,我重新写了一下,基本没变。这个例子中定义的map和reduce如下,关键是它对输入输出类型的定义:(java泛型编程) public static class Map extends Mapper public static class Reduce extends Reducer 1 首先说一下工作原理:在ma转载 2014-08-06 23:56:20 · 702 阅读 · 0 评论 -
hadoop生态系统
1、Hadoop生态系统概况Hadoop是一个能够对大量数据进行分布式处理的软件框架。具有可靠、高效、可伸缩的特点。Hadoop的核心是HDFS和Mapreduce,hadoop2.0还包括YARN。下图为hadoop的生态系统:2、HDFS(Hadoop分布式文件系统)源自于Google的GFS论文,发表于2003年10月,HDFS是GFS克隆版。是Hadoop体转载 2015-07-08 10:21:23 · 664 阅读 · 0 评论 -
Hadoop 新 MapReduce 框架 Yarn 详解
原 Hadoop MapReduce 框架的问题对于业界的大数据存储及分布式处理系统来说,Hadoop 是耳熟能详的卓越开源分布式文件存储及处理框架,对于 Hadoop 框架的介绍在此不再累述,读者可参考 Hadoop 官方简介。使用和学习过老 Hadoop 框架(0.20.0 及之前版本)的同仁应该很熟悉如下的原 MapReduce 框架图:图 1.Hadoop 原 MapR转载 2015-09-11 14:54:44 · 580 阅读 · 0 评论 -
Hadoop1.x与Hadoop2的区别
1、变更介绍Hadoop2相比较于Hadoop1.x来说,HDFS的架构与MapReduce的都有较大的变化,且速度上和可用性上都有了很大的提高,Hadoop2中有两个重要的变更:l HDFS的NameNodes可以以集群的方式布署,增强了NameNodes的水平扩展能力和可用性;l MapReduce将JobTracker中的资源管理及任务生命周期管理(包括定时触发及监控转载 2015-09-11 14:05:38 · 529 阅读 · 0 评论 -
hadoop 2.2.0集群安装
相关阅读:hbase 0.98.1集群安装本文将基于hadoop 2.2.0讲解其在linux集群上的安装方法,并对一些重要的设置项进行解释,本文原文链接:http://blog.csdn.net/bluishglc/article/details/24591185,转载请注明出处!1. 网络设置注意:以下各项网络配置务必前行执行,特别是关闭防火墙,以避转载 2015-10-07 21:28:17 · 523 阅读 · 0 评论 -
Redhat Enterprise Linux 6.4 安装Oracle JDK替换OpenJDK
缺省java版本为OpenJDK 1.7:# java -versionjava version "1.7.0_09-icedtea"OpenJDK Runtime Environment (rhel-2.3.4.1.el6_3-x86_64)OpenJDK 64-Bit Server VM (build 23.2-b09, mixed mode) # upda转载 2015-10-14 18:45:14 · 979 阅读 · 0 评论 -
Hadoop生态系统介绍
1、Hadoop生态系统概况Hadoop是一个能够对大量数据进行分布式处理的软件框架。具有可靠、高效、可伸缩的特点。Hadoop的核心是HDFS和Mapreduce,hadoop2.0还包括YARN。下图为hadoop的生态系统:2、HDFS(Hadoop分布式文件系统)源自于Google的GFS论文,发表于2003年10月,HDFS是GFS克隆版。是Hadoo转载 2015-10-13 15:41:30 · 595 阅读 · 0 评论 -
hadoop+hbase+zookeeper集群安装方法
最近公司搭建hadoop+hbase+zookeeper集群,期间遇到了许多问题,这里和大家分享一下安装的一些经验,目的在于大家在部署hadoop集群环境中少走一些弯路: 由于刚开始的时候我用虚拟机安装,安装版本是hadoop0.20.2+hbase0.90.3+zookeeper3.3.3版本,在测试hbase集群的时候hmaster不能正常启动或者是启动后进程自杀(在网上找到的答案应该是虚拟转载 2015-11-25 19:13:29 · 538 阅读 · 0 评论 -
【漫画解读】HDFS存储原理
根据Maneesh Varshney的漫画改编,以简洁易懂的漫画形式讲解HDFS存储机制与运行原理。一、角色出演如上图所示,HDFS存储相关角色与功能如下:Client:客户端,系统使用者,调用HDFS API操作文件;与NN交互获取文件元数据;与DN交互进行数据读写。Namenode:元数据节点,是系统唯一的管理者。负责元数据的管理;与clie转载 2016-02-27 14:50:16 · 1730 阅读 · 0 评论 -
Hadoop自动化安装shell脚本
之前写过一些如何安装Cloudera Hadoop的文章,安装hadoop过程中,最开始是手动安装apache版本的hadoop,其次是使用Intel的IDH管理界面安装IDH的hadoop,再然后分别手动和通过cloudera manager安装hadoop,也使用bigtop-util yum方式安装过apache的hadoop。安装过程中参考了很多网上的文章,解压缩过cloudera的c转载 2015-04-12 15:05:11 · 1332 阅读 · 0 评论 -
Hadoop控制输出文件命名 - MultipleOutputs
Hadoop 控制输出文件命名在一般情况下,Hadoop 每一个 Reducer 产生一个输出文件,文件以part-r-00000、part-r-00001 的方式进行命名。如果需要人为的控制输出文件的命名或者每一个 Reducer 需要写出多个输出文件时,可以采用 MultipleOutputs 类来完成。MultipleOutputs 采用输出记录的键值对(output Key转载 2014-08-10 16:47:11 · 886 阅读 · 0 评论 -
Hadoop多文件输出:MultipleOutputFormat和MultipleOutputs深究(一)
直到目前,我们看到的所有Mapreduce作业都输出一组文件。但是,在一些场合下,经常要求我们将输出多组文件或者把一个数据集分为多个数据集更为方便;比如将一个log里面属于不同业务线的日志分开来输出,并交给相关的业务线。 用过旧API的人应该知道,旧API中有 org.apache.hadoop.mapred.lib.MultipleOutputFormat和org.apache.hadoo转载 2014-08-09 00:30:41 · 590 阅读 · 0 评论 -
MapReduce实例--内连接
输入文件:Tom LucyTom JackJone LucyJone jackLucy MarryLucy BenJack AliceJack JesseTerry AliceTerry JessePhilip TerryPhilip AlmaMark TerryMark Alma转载 2014-08-10 22:22:27 · 789 阅读 · 0 评论 -
用MR(MapReduce)查询hbase数据-用到TableMapper和Scan
首先,可以设置scan的startRow, stopRow, filter等属性。于是两种方案:1.设置scan的filter,然后执行mapper,再reducer成一份结果2.不用filter过滤,将filter做的事传给mapper做进行了测试,前者在执行较少量scan记录的时候效率较后者高,但是执行的scan数量多了,便容易导致超时无返回而退出的情况。而为了实现后者转载 2014-08-10 22:27:22 · 1084 阅读 · 1 评论 -
深度分析如何在Hadoop中控制Map的数量
最近在看hadoop自带的例子 在单机伪集群上跑的时候不管怎么设置Map的数量都不可行,然后就找到这篇文章看了看!很多文档中描述,Mapper的数量在默认情况下不可直接控制干预,因为Mapper的数量由输入的大小和个数决定。在默认情况下,最终input占据了多少block,就应该启动多少个Mapper。如果输入的文件数量巨大,但是每个文件的size都小于HDFS的blockSi转载 2014-08-10 15:22:25 · 471 阅读 · 0 评论 -
[Hadoop源码解读](一)MapReduce篇之InputFormat
平时我们写MapReduce程序的时候,在设置输入格式的时候,总会调用形如job.setInputFormatClass(KeyValueTextInputFormat.class);来保证输入文件按照我们想要的格式被读取。所有的输入格式都继承于InputFormat,这是一个抽象类,其子类有专门用于读取普通文件的FileInputFormat,用来读取数据库的DBInputFormat等等。转载 2014-08-10 22:47:19 · 488 阅读 · 0 评论 -
MapReduce: 提高MapReduce性能的七点建议
Cloudera提供给客户的服务内容之一就是调整和优化MapReduce job执行性能。MapReduce和HDFS组成一个复杂的分布式系统,并且它们运行着各式各样用户的代码,这样导致没有一个快速有效的规则来实现优化代码性能的目的。在我看来,调整cluster或job的运行更像一个医生对待病人一样,找出关键的“症状”,对于不同的症状有不同的诊断和处理方式。 在医学领域,没转载 2014-08-10 16:23:24 · 565 阅读 · 0 评论 -
Hadoop的MapReduce中多文件输出 .
inkfish原创,请勿商业性质转载,转载请注明来源(http://blog.csdn.net/inkfish )。 Hadoop默认的输出是TextOutputFormat,输出文件名不可定制。hadoop 0.19.X中有一个org.apache.hadoop.mapred.lib.MultipleOutputFormat,可以输出多份文件且可以自定义文件名,但是从hadoop 0.20转载 2014-08-10 16:12:08 · 746 阅读 · 0 评论 -
hadoop默认参数
1 常用的端口配置1.1 HDFS端口 参数描述默认配置文件例子值fs.default.name namenodenamenode RPC交互端口8020core-site.xmlhdfs://转载 2014-08-10 16:58:15 · 620 阅读 · 0 评论 -
hadoop2.x常用端口、定义方法及默认端口、hadoop1.X端口对比
问题导读:1.DataNode的http服务的端口、ipc服务的端口分别是哪个?2.NameNode的http服务的端口、ipc服务的端口分别是哪个?3.journalnode的http服务的端口、ipc服务的端口分别是哪个?4.ResourceManager的http服务端口是哪个?5.NodeManager的http服务端口是哪个?6.Master的http服务的端口、转载 2016-05-15 13:34:26 · 3214 阅读 · 0 评论 -
win7下hadoop安装配置注意事项
在win7下安装hadoop和其他windows平台有很多不同,通用的步骤就不重复了,把遇到的问题总结一下给大家参考,以免走弯路。 说起来很简单只需要注意几步,千万不要按教程来。1.chown SYSTEM.None empty 2.*** Query: Should privilege separation be used? (yes/no) yes这个一定要选yes转载 2013-06-30 09:44:29 · 729 阅读 · 0 评论 -
Linux(Centos)配置OpenSSH无密码登陆
最近在搭建Hadoop环境需要设置无密码登陆,所谓无密码登陆其实是指通过证书认证的方式登陆,使用一种被称为"公私钥"认证的方式来进行ssh登录。在linux系统中,ssh是远程登录的默认工具,因为该工具的协议使用了RSA/DSA的加密算法.该工具做linux系统的远程管理是非常安全的。telnet,因为其不安全性,在linux系统中被搁置使用了。 " 公私钥"认证方转载 2013-10-14 21:17:44 · 827 阅读 · 0 评论