hadoop
文章平均质量分 78
caodaoxi
这个作者很懒,什么都没留下…
展开
-
hadoop lzo
1.安装LZOsudo apt-get install liblzo2-dev或者下载lzo2[http://www.oberhumer.com/opensource/lzo/download/].wget [http://www.oberhumer.com/opensource/lzo/download/lzo-2.06.tar.gz]./configure \--en...原创 2013-10-28 18:34:04 · 248 阅读 · 0 评论 -
Hadoop权限问题以及Wrong FS错误
记录一些问题。首先是权限的问题。在Eclipse下开发时候会遇到Permission Denied的状况。该权限即可(貌似不太安全,我看到有人是修改的配置文件,等我和大牛们讨论了再说)1、权限的改法,以我的为例[python] view plaincopy./hadoop fs -chmod -R 777 ~/hadoop/hadoop 2、关于使转载 2013-05-22 00:17:49 · 765 阅读 · 0 评论 -
Debugging “Wrong FS expected: file:///” exception from HDFS
inShareThe Performance Zone is supported by New Relic and AppDynamics. Both are leaders in the APM space with high-profile customers and massive cost reductions for those users.转载 2013-05-22 00:11:10 · 1349 阅读 · 0 评论 -
Hadoop 权限管理(转)
如下图,hadoop访问控制分为两级,其中ServiceLevel Authorization为系统级,用于控制是否可以访问指定的服务,例如用户/组是否可以向集群提交Job,它是最基础的访问控制,优先于文件权限和mapred队列权限验证。Access Control on Job Queues在job调度策略层之上,控制mapred队列的权限。DFSPermmision用户控制文件权限。目前版本中转载 2013-05-21 22:26:19 · 541 阅读 · 0 评论 -
ganglia安装配置
环境:系统CentOS 6.0hadoop集群中有3台服务器server01 -> master 192.168.255.128server02 -> slave 192.168.255.130server03 -> slave 192.168.255.131软件仓库 epel 直接使用epel源中的ganglia(自己编译安装有点小麻烦)。1转载 2013-05-20 21:54:35 · 607 阅读 · 0 评论 -
hadoop中的公平调度的实现算法
1. 目的 本文描述了hadoop中的公平调度的实现算法,公平调度器是由facebook贡献的,适合于多用户共享集群的环境的调度器,其吞吐率高于 FIFO,论文参见参考资料[1]。本文分析的Hadoop版本是0.20.2,在新版本(0.21.0)中,公平调度算法已经有了改进与增强。本文组织 结构如下:1)目的 2)公平调度介绍 3)公平调度算法分析 4)新版hadoop中公平原创 2013-04-27 17:08:09 · 628 阅读 · 0 评论 -
使用pssh进行并行批量操作
假如同时给上千台服务器执行一个命令,拷贝一个文件,杀一个进程等,有什么简化运维管理的工具呢?在小型使用中我都是使用for循环,数量巨大,一方面不确定操作是否成功,一方面for循环语句性能不好估计且是不是同步并行执行.,这类工具比如pdsh,mussh,cssh,dsh等还有这里提到的pssh:1 安装:#wget http://peak.telecommunity.com/dist/转载 2013-03-24 16:35:31 · 836 阅读 · 0 评论 -
hdfs工作原理
书上和网上有对hdfs讲解的有很多,但是很多讲解的都不是很全面.前段有人问我hdfs工作原理,我说的不是清楚可能是因为平时对知识没有梳理,所以今天痛下决心,抽时间将知识梳理下,同时也希望能帮助那些刚接触hadoop不理解其原理的童鞋能有更深入的认识. 下面我将从以下三个方面来阐述下hdfs的工作原理: 一,当用client向hdfs中写入数据的时候.原创 2013-03-19 22:08:57 · 934 阅读 · 0 评论 -
漫画讲解HDFS工作原理
转自:http://blog.csdn.net/netcoder/article/details/7442779转载 2013-03-17 10:42:49 · 729 阅读 · 0 评论 -
hadoop 输出MultipleOutputs学习及应用情境
MultipleOutputs可以轻易的将输出数据输出为多个。案例一:writing to additional outputs other than the job default output.案例二:to write data to different files provided by user举例: * Usage pattern for job subm转载 2013-03-16 20:41:35 · 692 阅读 · 0 评论 -
Hadoop安全模式的理解
安全模式异常:在hadoop的实践过程中,系统启动的时候去修改和删除文件有时候会报以下错误:org.apache.hadoop.dfs.SafeModeException: Cannotdelete/user/hadoop/input. Name node is in safe mode.从字面上来理解:“Name nodeis in safe mode.”hadoop的namenod原创 2013-03-16 14:50:48 · 653 阅读 · 0 评论 -
Hadoop运维记录系列(一)
版权声明:原创作品,谢绝转载!否则将追究法律责任。 这两天参加了51CTO举办的云计算架构师峰会,办的非常好,很多干货。确实比一些名不副实的所谓大数据实际都是厂商推销产品的会议要强得多。但是其实这事跟Hadoop运维没关系,但是这两天集群发生的故障影响了我听报告。说起来很奇幻,集群里面有三台服务器需要升级CPU,这本无可厚非。但是不多不少,恰恰是三台,符合Hadoop集群配置的re转载 2013-05-23 10:03:12 · 687 阅读 · 0 评论 -
Hadoop学习笔记二 安装部署
硬件环境共有3台机器,均使用的FC5系统,Java使用的是jdk1.6.0。IP配置如下:dbrg-1:202.197.18.72dbrg-2:202.197.18.73dbrg-3:202.197.18.74这里有一点需要强调的就是,务必要确保每台机器的主机名和IP地址之间能正确解析。一个很简单的测试办法就是ping一下主机名,比如在dbrg-1上ping dbrg-2,转载 2013-05-23 13:54:00 · 538 阅读 · 0 评论 -
CDH4.1(hadoop-2.0.0-cdh4.1.2)安装部署文档
1. 环境说明 Hadoop的版本选用的hadoop-2.0.0-cdh4.1.2,此版本的hadoop增加了诸如热备等许多新功能。是Cloudera在hadoop0.23基础上改造的,并且把部分功能一起贡献给了Apache。目前Apache Hadoop最新的版本是hadoop-2.0.2-alpha。 CDH4下载地址: https://c转载 2013-05-23 11:16:16 · 1997 阅读 · 0 评论 -
storm on yarn 如何支持 storm 0.9.2
storm on yarn的git地址:https://github.com/yahoo/storm-yarn.git原创 2014-10-29 17:11:43 · 1391 阅读 · 0 评论 -
mesos
sudo apt-get install libcurl3 libcurl3-gnutls libcurl4-openssl-devsudo apt-get install g++ python-dev libcppunit-dev libcppunit-doc原创 2014-05-10 09:51:30 · 823 阅读 · 0 评论 -
Hadoop和HBase集群的JMX监控
说到对Hadoop和HBase的集群监控,大家知道的和用的最多的可能还是第三方的监控工具,cacti,ganglia,zabbix之类的。玩的深一些的,会用zenoss之类的。这些工具确实不错,也能发挥很大的作用,但时间长了总感觉监控粒度还是比较粗,不够详细。毕竟是第三方的监控,即便Hadoop自带了ganglia的接口,也还是觉得不够。其实Hadoop本身是带有监控接口的,各公司的发转载 2014-01-03 15:05:54 · 714 阅读 · 0 评论 -
hadoop权限管理
1. 介绍本文介绍的Hadoop权限管理包括以下几个模块:(1) 用户分组管理。用于按组为单位组织管理,某个用户只能向固定分组中提交作业,只能使用固定分组中配置的资源;同时可以限制每个用户提交的作业数,使用的资源量等(2) 作业管理。包括作业提交权限控制,作业运行状态查看权限控制等。如:可限定可提交作业的用户;可限定可查看作业运行状态的用户;可限定普通用户只能修改自己作业的优先级,ki转载 2013-06-18 14:00:41 · 618 阅读 · 0 评论 -
hadoop mapred-queue-acls 配置
hadoop作业提交时可以指定相应的队列,例如:-Dmapred.job.queue.name=queue2通过对mapred-queue-acls.xml和mapred-site.xml配置可以对不同的队列实现不同用户的提交权限.先编辑mapred-site.xml,修改配置如下(增加四个队列):property> name>mapred.queue.namesname> v转载 2013-06-18 14:03:09 · 1128 阅读 · 0 评论 -
ganglia监控Hadoop各指标说明
监控指标大致如下: default.shuffleInput dfs.datanode jvm mapred.shuffleOutput rpc metricssystem dfs.datanode.blockChecksumOp_avg_time块校验平均时间 dfs.datanode.blockChecksum转载 2013-06-17 13:54:40 · 992 阅读 · 0 评论 -
关于 HDFS Append
# ######################### 关于 HDFS Append ####################(1) 背景 早期的HDFS版本不支持HDFS append功能. 当一个文件被关闭时, 这个文件就不能再被修改了. 如果要修改的话, 就只能重读此文件并将数据写入一个新的文件. 虽然这种方式很简单, 但和map/reduce的需求却是非常match的.转载 2013-05-27 12:57:21 · 697 阅读 · 0 评论 -
编译 Hadoop-append 用于Hbase
Hbase基于 hadoop,若 Hbase 直接使用 release 版本的 hadoop,可能出现数据丢失的情况,hbase 需要使用 hadoop-append ,详细介绍参考Hbase 官网资料下面以 hbase-0.90.2 为例,介绍 hadoop-0.20.2-append 的编译,以下操作参考:Building an Hadoop 0.20.x version for转载 2013-05-27 12:53:38 · 533 阅读 · 0 评论 -
hbase安装配置(整合到hadoop)
1.快速单机安装:在单机安装Hbase的方法。会引导你通过shell创建一个表,插入一行,然后删除它,最后停止Hbase。只要10分钟就可以完成以下的操作。1.1下载解压最新版本选择一个 Apache 下载镜像:http://www.apache.org/dyn/closer.cgi/hbase/,下载 HBase Releases. 点击 stable目录,然后下载后缀为 .tar.转载 2013-05-23 23:17:37 · 584 阅读 · 0 评论 -
Hadoop运维记录系列(二)
摘要: 下周准备去某地做Hadoop相关的技术培训,主要负责讲解Hadoop的安装部署和运维部分,赶制了一份PPT,将平时工作中遇到的问题也提取了一下,希望能对Hadoop运维相关人员有所帮助,算是个补上的运维记录吧,错误数据均来 ...下周准备去某地做Hadoop相关的技术培训,主要负责讲解Hadoop的安装部署和运维部分,赶制了一份PPT,将平时工作中遇到的问题也提转载 2013-05-23 09:59:55 · 909 阅读 · 0 评论 -
Hadoop 的 TotalOrderPartitioner
http://blog.oddfoo.net/2011/04/17/mapreduce-partition%E5%88%86%E6%9E%90-2/ Partition所处的位置Partition位置Partition主要作用就是将map的结果发送到相应的reduce。这就对partition有两个要求:1)均衡负载,尽量的将工作均匀的分配给不同的red转载 2013-03-08 17:51:27 · 818 阅读 · 0 评论 -
hadoop参数说明
一般来说,hadoop主要有三个默认参数文件,分别为core-default.xml,hdfs-default.xml,mapred-default.xml。其它需要用户配置的参数文件为core-site.xml,hdfs-site.xml,mapred-site.xml,下面分别介绍下相关参数的含义三个重要配置文件1,core-site.xml[node1 conf]转载 2013-03-07 15:19:44 · 687 阅读 · 0 评论 -
MapReduce:详解Shuffle过程
转载自:http://langyu.iteye.com/blog/992916 Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce, Shuffle是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大致的逻辑,反而越搅越混。前段时间在做MapReduce job 性能调优的工作,需要深入代码研究MapReduc转载 2012-12-30 21:38:49 · 276 阅读 · 0 评论 -
hadoop二次排序(合集)
1.原理在map阶段的最后,会先调用job.setPartitionerClass对这个List进行分区,每个分区映射到一个reducer。每个分区内又调用job.setSortComparatorClass设置的key比较函数类排序。可以看到,这本身就是一个二次排序。如果没有通过job.setSortComparatorClass设置key比较函数类,则使用key的实现的compareTo方转载 2012-12-30 17:46:39 · 468 阅读 · 0 评论 -
MapReduce的排序和二次排序
自己学习排序和二次排序的知识整理如下。1.Hadoop的序列化格式介绍:Writable2.Hadoop的key排序逻辑3.全排序4.如何自定义自己的Writable类型5.如何实现二次排序1.Hadoop的序列化格式介绍:Writable要了解和编写MR实现排序必须要知道的第一个知识点就是Writable相关的接口和类,这些是HADOOP自己的序列转载 2012-12-30 17:01:00 · 352 阅读 · 0 评论 -
Hadoop中shuffle阶段流程分析
宏观上,Hadoop每个作业要经历两个阶段:Map phase和reduce phase。对于Map phase,又主要包含四个子阶段:从磁盘上读数据-》执行map函数-》combine结果 -》将结果写到本地磁盘上;对于reduce phase,同样包含四个子阶段:从各个map task上读相应的数据(shuffle)-》sort-》执行reduce函数-》将结果写到HDFS中。转载 2012-12-30 16:42:28 · 362 阅读 · 0 评论 -
Hadoop全局排序
1. Hellow hadoop~~!Hadoop(某人儿子的一只虚拟大象的名字)是一个复杂到极致,又简单到极致的东西。说它复杂,是因为一个hadoop集群往往有几十台甚至成百上千台low cost的计算机组成,你运行的每一个任务都要在这些计算机上做任务的分发,执行中间数据排序以及最后的汇总,期间还包含节点发现,任务的重试,故障节点替换等等等等的维护以及异常情况处理。谁叫had转载 2012-12-30 16:08:00 · 529 阅读 · 0 评论 -
hadoop的1TB排序
原文链接:http://www.javaeye.com/topic/7099861、1TB(或1分钟)排序的冠军作为分布式数据处理的框架,集群的数据处理能力究竟有多快?或许1TB排序可以作为衡量的标准之一。1TB排序,就是对1TB(1024GB,大约100亿行数据)的数据进行排序。2008年,Hadoop赢得1TB排序基准评估第一名,排序1TB数据耗时209秒。后来,1TB排序被1转载 2012-12-30 15:37:45 · 399 阅读 · 0 评论 -
MapReduce Features
CountersBuilt-in Counters这些counters你在Web UI中,或是job结束后在控制台生成的统计报告中都看得到,根据名字你也能猜到这些counter是什么意思。分为3个Group:Map-Reduce FramewordMap input records,Map skipped records,Map input bytes,Map output r转载 2012-12-27 14:45:51 · 327 阅读 · 0 评论 -
Hadoop Map Reduce Task默认任务数调优
mapred.tasktracker.map.tasks.maximum 官方解释:The maximum number of map tasks that will berun simultaneously by a tasktracker. 我的理解:一个tasktracker最多可以同时运行的map任务数量 默认值:2 优化值转载 2012-12-23 11:38:58 · 1023 阅读 · 0 评论 -
hadoop作业调优参数整理及原理
转载自:http://blog.csdn.net/starxu85/article/details/62122051 Map side tuning参数1.1 MapTask运行内部原理当map task开始运算,并产生中间数据时,其产生的中间结果并非直接就简单的写入磁盘。这中间的过程比较复杂,并且利用到了内存buffer来进行已经产生的部分结果的缓存,并在内存buff转载 2012-12-23 11:33:24 · 278 阅读 · 0 评论 -
使用Hadoop MapReduce 进行排序
本文转自:http://www.alidw.com/?p=1420 在hadoop中的例子TeraSort,就是一个利用mapredue进行排序的例子。本文参考并简化了这个例子: 排序的基本思想是利用了mapreduce的自动排序功能,在hadoop中,从map到reduce阶段,map出来的结构会按照各个key按照 hash值分配到各个reduce中,其中,在re转载 2012-12-30 17:43:52 · 427 阅读 · 0 评论 -
Hadoop中Partition解析
1.解析PartitionMap的结果,会通过partition分发到Reducer上,Reducer做完Reduce操作后,通过OutputFormat,进行输出,下面我们就来分析参与这个过程的类。Mapper的结果,可能送到Combiner做合并,Combiner在系统中并没有自己的基类,而是用Reducer作为Combiner的基类,他们对外的功能是一样的,只是使用的位置和使用时的上转载 2012-12-30 12:08:23 · 352 阅读 · 0 评论 -
Hadoop MapReduce 任务执行流程源代码详细解析
引言 1.1 目的 1.2 读者范围2 综述3 代码详细分析 3.1 启动Hadoop集群 3.2 JobTracker启动以及Job的初始化 3.3 TaskTracker启动以及发送Heartbeat 3.4 JobTracker接收Heartbeat并向TaskTracker分配任务 3.5 TaskTracker接收HeartbeatRespon转载 2012-12-30 16:50:28 · 448 阅读 · 0 评论 -
Hadoop二次排序
转载自:http://www.fuzhijie.me/?p=34我想涉及到文件的Join操作应该都要使用到二次排序吧,之前我用字符串拼接的方法显得太不专业了,本来在reduce过程中是不需要保存这些数据的,遍历一次便可以将记录全部collect好。Hadoop 0.20包里面有一个SecondarySort的例子程序,结合公司牛人写的一个ppt,终于搞明白了。呵呵,刚好也用上了,所以总结一转载 2012-12-30 17:24:20 · 367 阅读 · 0 评论 -
自定义实现Hadoop Key-Value
自定义实现Value:如果需要自定义一个一个Value类型,那么需要实现Hadoop预定义接口org.apache.hadoop.io.Writable。Writable包含两个重要的方法:readFields和write,主要用于数据的序列化和反序列化。对于Writable的子类的成员变量必须是Java的基本类型或者是其他实现了Writable接口的类型。如果是Java的基本类型则可以使用D转载 2013-03-07 14:28:25 · 503 阅读 · 0 评论