Hadoop
文章平均质量分 89
安静平和
这个作者很懒,什么都没留下…
展开
-
创建Hadoop的Maven项目
原文地址 http://blog.sina.com.cn/s/blog_67331d610102v3y3.html1. 用Maven创建一个标准化的Java项目(maven部署看上篇博客)D:\workspace\java>mvn archetype:generate -DarchetypeGroupId=org.apache.maven.archetypes -DgroupId=si转载 2015-04-03 15:24:09 · 2104 阅读 · 0 评论 -
linux中的find命令——查找文件名
1.在某目录下查找名为“elm.cc”的文件find /home/lijiajia/ -name elm.cc 2.查找文件名中包含某字符(如"elm")的文件find /home/lijiajia/ -name '*elm*'find /home/lijiajia/ -name 'elm*'find /home/lijiajia/ -name '*elm' 3.根转载 2016-07-30 22:18:24 · 891 阅读 · 0 评论 -
Hadoop Reducer个数设置
在默认情况下,一个MapReduce Job如果不设置Reducer的个数,那么Reducer的个数为1。具体,可以通过JobConf.setNumReduceTasks(int numOfReduceTasks)方法来设置Reducer的个数。那么,如何确定Reducer的个数呢,Hadoop documentation 推荐了两个计算公式:0.95 * NUMBER_OF_N转载 2016-07-31 11:31:06 · 1044 阅读 · 0 评论 -
Hadoop自定义排序和自定义数据类型使用(setSortComparatorClass和setGroupingComparatorClass)
1 Mapper[java] view plain copy public class SortMapper extends Mapper{ public TextInt textInt = new TextInt(); public IntWritable intp = new IntWritable(0)转载 2016-07-31 16:02:10 · 1253 阅读 · 0 评论 -
MapReduce的排序和二次排序
自己学习排序和二次排序的知识整理如下。1.Hadoop的序列化格式介绍:Writable2.Hadoop的key排序逻辑3.全排序4.如何自定义自己的Writable类型5.如何实现二次排序1.Hadoop的序列化格式介绍:Writable要了解和编写MR实现排序必须要知道的第一个知识点就是Writable相关的接口和转载 2016-07-31 16:44:15 · 560 阅读 · 0 评论 -
mapreduce 全局排序
1、1TB(或1分钟)排序的冠军 作为分布式数据处理的框架,集群的数据处理能力究竟有多快?或许1TB排序可以作为衡量的标准之一。 1TB排序,就是对1TB(1024GB,大约100亿行数据)的数据进行排序。2008年,Hadoop赢得1TB排序基准评估第一名,排序1TB数据耗时209秒。后来,1TB排序被1分钟排序所取代,1分钟排序指的是在一分钟内尽可能多的排序。2009年,在一个14转载 2016-07-31 19:13:30 · 2340 阅读 · 0 评论 -
理解Spark的核心RDD
与许多专有的大数据处理平台不同,Spark建立在统一抽象的RDD之上,使得它可以以基本一致的方式应对不同的大数据处理场景,包括MapReduce,Streaming,SQL,Machine Learning以及Graph等。这即Matei Zaharia所谓的“设计一个通用的编程抽象(Unified Programming Abstraction)。这正是Spark这朵小火花让人着迷的地方。要转载 2016-08-17 21:05:20 · 774 阅读 · 0 评论 -
hadoop运行mapreduce作业无法连接0.0.0.0/0.0.0.0:10020
14/04/04 17:15:12 INFO mapreduce.Job: map 0% reduce 0%14/04/04 17:19:42 INFO mapreduce.Job: map 41% reduce 0%14/04/04 17:19:53 INFO mapreduce.Job: map 64% reduce 0%14/04/04 17:19:55 INF转载 2016-08-06 13:14:35 · 2334 阅读 · 0 评论 -
hadoop.mapred vs hadoop.mapreduce?
They are separated out because both of these packages represent 2 different APIs. org.apache.hadoop.mapred is the older API and org.apache.hadoop.mapreduce is the new one. And it was done to allow转载 2016-08-29 22:38:25 · 667 阅读 · 0 评论 -
Centos下使用Hadoop2.6.0-eclipse-plugin插件
基于Eclipse的Hadoop应用开发环境配置我的开发环境:操作系统centos5.5 一个namenode 两个datanodeHadoop版本:hadoop-0.20.203.0Eclipse版本:eclipse-java-helios-SR2-linux-gtk.tar.gz(使用3.7的版本总是崩溃,让人郁闷)第一步:先启动hadoop守护进程具体参看:htt转载 2016-08-21 11:08:03 · 1065 阅读 · 0 评论 -
HBase数据导出到HDFS
一、目的把hbase中某张表的数据导出到hdfs上一份。实现方式这里介绍两种:一种是自己写mr程序来完成,一种是使用hbase提供的类来完成。二、自定义mr程序将hbase数据导出到hdfs上2.1首先看看hbase中t1表中的数据:2.2mr的代码如下:比较重要的语句是job.setNumReduceTasks(0);//为什么要设转载 2016-08-31 23:15:31 · 3181 阅读 · 0 评论 -
hadoop
1.本地模式与Yarn模式配置有什么区别?2.Yarn模式有哪两种方式执行任务?3.uber mode与mr小作业是什么关系?MapReduce按照任务大小和设置的不同,提供了两种任务模式:客户端通过org.apache.hadoop.mapreduce.protocol.ClientProtocol与服务端通信,ClientProtocol转载 2016-08-22 21:17:48 · 621 阅读 · 0 评论 -
Win7+Eclipse+Hadoop2.6.4开发环境搭建
Hadoop开发环境搭建感谢参考网站:http://www.cnblogs.com/huligong1234/p/4137133.html一、软件准备JDK:jdk-7u80-windows-x64.exehttp://www.oracle.com/technetwork/java/javase/archive-139210.htmlEclipse:ecli转载 2016-08-22 22:27:27 · 1195 阅读 · 0 评论 -
Hadoop默认端口说明
Hadoop集群的各部分一般都会使用到多个端口,有些是daemon之间进行交互之用,有些是用于RPC访问以及HTTP访问。而随着Hadoop周边组件的增多,完全记不住哪个端口对应哪个应用,特收集记录如此,以便查询。这里包含我们使用到的组件:HDFS, YARN, HBase, Hive, ZooKeeper。组件 Daemon 端口 配置 说明HDFS DataNo转载 2016-08-22 22:35:11 · 4761 阅读 · 0 评论 -
Yarn的JVM重用功能——uber
在文章开头,我想先做几点说明:1、本文的内容来自我对Yarn的相应功能的理解和实践。而我对该部分功能的理解主要来自对Hadoop的开发者之前相应言论的分析,并且我也将我的分析发给了Hadoop community, 并得到了Yarn的创始人兼架构师Arun Murthy的肯定回复。2、本文中uber的配置部分,主要参考之前Hadoop开发者的言论。但是我当初看该言论的时候对一些细节有所疑惑转载 2016-09-01 22:26:40 · 622 阅读 · 0 评论 -
NewSQL体系比Hadoop更具效率
现今,完全放弃传统关系数据库并忙于使用新兴的NoSQL数据库可能还不是一个合理的选择。相反改进后的SQL(结构化查询语言)系统可能会对一些技术细节进行调整。在8月23日加利福尼亚圣何塞市举行的NoSQL 2011大会上分布式数据库公司VoltDB的首席技术官Michael Stonebraker表达了上述的观点。7 C3 h8 D% b, e2 A: o! DStonebraker所在转载 2016-04-13 20:41:22 · 1412 阅读 · 0 评论 -
HDFS之SequenceFile和MapFile
Hadoop的HDFS和MapReduce子框架主要是针对大数据文件来设计的,在小文件的处理上不但效率低下,而且十分消耗内存资源(每一个小文件占用一个Block,每一个block的元数据都存储在namenode的内存里)。解决办法通常是选择一个容器,将这些小文件组织起来统一存储。HDFS提供了两种类型的容器,分别是SequenceFile和MapFile。一、SequenceFileS转载 2016-03-11 23:02:01 · 781 阅读 · 0 评论 -
HDFS 的Trash回收站功能的配置、使用
文件的删除和恢复 和Linux系统的回收站设计一样,HDFS会为每一个用户创建一个回收站目录:/user/用户名/.Trash/,每一个被用户通过Shell删除的文件/目录,在系统回收站中都一个周期,也就是当系统回收站中的文件/目录在一段时间之后没有被用户回复的话,HDFS就会自动的把这个文件/目录彻底删除,之后,用户就永远也找不回这个文件/目录了。在HDFS内部的具体实现就转载 2015-08-02 21:14:51 · 1891 阅读 · 0 评论 -
hadoop secondarynamenode的作用
1、初学者会见名思义的认为secondarynamenode是namenode的备份其它的,或者认为它们是一样的。实质上,它是namenode的一个快照,会根据configuration中设置的值来决定多少时间周期性的去spap一下namenode,记录namenode中的metadata及其它数据。2、假使namenode损坏或丢失之后,无法启动hadoop这时就要人工去干预恢复到sec转载 2016-01-20 17:21:34 · 997 阅读 · 0 评论 -
CDH(Cloudera)与hadoop(Apache)对比
问题导读:1.hadoop有几个版本?2.CDH有几种安装方式?3.CDH在安装认证方面做了什么改变?Cloudera的CDH和Apache的Hadoop的区别 目前而言,不收费的Hadoop版本主要有三个(均是国外厂商),分别是:Apache(最原始的版本,所有发行版均基于这个版本进行改进)、Cloudera版本(Cloudera’s Distribut转载 2015-12-19 11:41:23 · 17919 阅读 · 5 评论 -
浅析 Hadoop 中的数据倾斜
http://my.oschina.net/leejun2005/blog/100922?fromerr=8S3TGeWX最近几次被问到关于数据倾斜的问题,这里找了些资料也结合一些自己的理解. 在并行计算中我们总希望分配的每一个task 都能以差不多的粒度来切分并且完成时间相差不大,但是集群中可能硬件不同,应用的类型不同和切分的数据大小不一致总会导致有部分任务极大的拖慢了转载 2015-12-21 15:42:25 · 1340 阅读 · 0 评论 -
搭建Hadoop源代码阅读环境
本节将介绍如何创建一个Hadoop源代码工程以方便阅读源代码。总体上说,目前存在两种Hadoop源代码阅读环境搭建方法,分别是构建Maven工程和构建Java工程。两种方法各有利弊:前者可通过网络自动下载依赖的第三方库,但源代码会被分散到多个工程中进而带来阅读上的不便;后者可将所有源代码组织在一个工程中,但需要自己添加依赖的第三方库,大家可根据自己的喜好选择一种方法。本节将依次介绍这两种方法。转载 2016-01-08 14:05:42 · 4026 阅读 · 0 评论 -
SecondaryNameNode作用
前言最近刚接触Hadoop, 一直没有弄明白NameNode和Secondary NameNode的区别和关系。很多人都认为,Secondary NameNode是NameNode的备份,是为了防止NameNode的单点失败的,直到读了这篇文章Secondary Namenode - What it really do? (需翻墙)才发现并不是这样。文章写的很通俗易懂,现将其翻译如下:转载 2016-01-20 17:27:08 · 1081 阅读 · 0 评论 -
Hadoop文件系统元数据fsimage和编辑日志edits
在《Hadoop NameNode元数据相关文件目录解析》文章中提到NameNode的$dfs.namenode.name.dir/current/文件夹的几个文件:1current/2|-- VERSION3|-- edits_*转载 2016-03-02 10:48:35 · 1556 阅读 · 0 评论 -
NameNode启动过程详细剖析 NameNode中几个关键的数据结构 FSImage
Namenode会将HDFS的文件和目录元数据存储在一个叫fsimage的二进制文件中,每次保存fsimage之后到下次保存之间的所有hdfs操作,将会记录在editlog文件中,当editlog达到一定的大小(bytes,由fs.checkpoint.size参数定义)或从上次保存过后一定时间段过后(sec,由fs.checkpoint.period参数定义),namenode会重新将内存中对整转载 2016-03-03 10:53:35 · 3325 阅读 · 2 评论 -
namenode中元数据的安全性
namenode管理着集群数据的元数据信息,并持久化存储在fsimage和editlog文件中,文件存放的位置是通过hdfs-site.xml中配置的。fsimage的存放路径是dfs.namenode.name.dir的值,默认是“${dfs.tmp.dir}/dfs/name”。editlog文件的存放路径是dfs.namenode.edits.dir指定的值,默认是“${dfs.name原创 2016-03-05 06:07:08 · 1212 阅读 · 0 评论 -
DataNode中block的存放位置和大小
我的DataNode中存放Block的位置是/usr/local/myHadoop/hadoop-2.6.0/tmp/dfs/data/current/BP-1425842400-192.168.1.101-1451701156704/current/finalized/subdir0/subdir0 DataNode存储数据的时候,都是以block形式存储。block是Dat原创 2016-03-05 07:28:22 · 5267 阅读 · 0 评论 -
值得一提:关于 HDFS 的 file size 和 block size
一个常被问到的一个问题是: 如果一个HDFS上的文件大小(file size) 小于块大小(block size) ,那么HDFS会实际占用Linux file system的多大空间?答案是实际的文件大小,而非一个块的大小。下面做一个实验:1、往hdfs里面添加新文件前,hadoop在linux上面所占的空间为 464 MB:2、往hdfs里面添加大小为267转载 2016-03-05 08:53:26 · 1201 阅读 · 0 评论 -
HDFS小文件问题及解决方案
1、 概述小文件是指文件size小于HDFS上block大小的文件。这样的文件会给hadoop的扩展性和性能带来严重问题。首先,在HDFS中,任何block,文件或者目录在内存中均以对象的形式存储,每个对象约占150byte,如果有1000 0000个小文件,每个文件占用一个block,则namenode大约需要2G空间。如果存储1亿个文件,则namenode需要20G空间(见参转载 2016-03-07 17:26:37 · 1537 阅读 · 0 评论 -
hadoop rpc基础
RPC,远程程序调用,分布式计算中C/S模型的一个应用实例。同其他RPC框架一样,Hadoop分为四个部分:序列化层:支持多种框架实现序列化与反序列化函数调用层:利用java反射与动态代理实现网络传输层:基于TCP/IP的Socket机制服务的处理框架:基于Reactor模式的事件驱动IO模型 Hadoop RPC主要对外提供2种接口public stati转载 2016-03-10 20:55:12 · 599 阅读 · 0 评论 -
Hadoop RPC源码分析
讲了Hadoop RPC的使用方法,这一次我们从demo中一层层进行分析。 RPC说白了,就3个核心,交互协议、服务端、客户端。在Hadoop RPC(hadoop-common-2.4.jar)中也是这样 交互协议org.apache.hadoop.ipc.VersionedProtocol ,所有协议的父类其实就2个方法,版本与签名。不同版本与签名的协议,就算同转载 2016-03-10 21:47:22 · 881 阅读 · 0 评论 -
MapReduce:详解Shuffle过程
Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce, Shuffle是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大致的逻辑,反而越搅越混。前段时间在做MapReduce job 性能调优的工作,需要深入代码研究MapReduce的运行机制,这才对Shuffle探了个究竟。考虑到之前我在看相关资料而看不懂时很恼火,所以在这里转载 2016-03-11 22:38:14 · 5918 阅读 · 3 评论 -
Hadoop数据操作系统YARN全解析
Hadoop 2.0引入YARN,大大提高了集群的资源利用率并降低了集群管理成本。其在异构集群中是怎样应用的?Hulu又有哪些成功实践可以分享?更多大数据内容敬请关注大数据杂谈【ID :BigdataTina2016】Hadoop YARN的生态系统为了能够对集群中的资源进行统一管理和调度,Hadoop 2.0引入了数据操作系统YARN。YARN的引入,大大提高了集群的资源利用率,并降低了集群管理转载 2016-08-14 17:11:17 · 960 阅读 · 0 评论