![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
HADOOP
szjianzr
这个作者很懒,什么都没留下…
展开
-
HBase入门
HBase 是Hadoop的一个子项目,HBase采用了Google BigTable的稀疏的,面向列的数据库实现方式的理论,建立在hadoop的hdfs上,一方面里用了hdfs的高可靠性和可伸缩行,另外一方面里用了BigTable的高效数据组织形式.可以说HBase为海量数据的real-time相应提供了很好的一个开源解决方案.据说在某运营商中使用类似于 BigTable(个人猜测应该就是HBa...2011-10-31 09:26:11 · 69 阅读 · 0 评论 -
hadoop 集群管理-内存设置
1. 内存hadoop为各个守护进程(namenode,secondarynamenode,jobtracker,datanode,tasktracker)统一分配的内存在hadoop-env.sh中设置,参数为HADOOP_HEAPSIZE,默认为1000M。大部分情况下,这个统一设置的值可能并不适合。例如对于namenode节点,1000M的内存只能存储几百万个文件的数据块的引用。如...原创 2014-04-21 16:07:18 · 157 阅读 · 0 评论 -
用MapReduce操作mongodb与hdfs的读写例子
需要引入的类包:mongo-java-driver-2.11.2.jar、mongo-hadoop-core_1.0.4-1.1.0.jar一、从MongoDB上读数据,进行MapReduce后,把结果在在HDFS上。1、Job的配置启动类:package com.test.similarity.dataimport;import org.apache.hadoop.co...原创 2014-02-13 13:50:37 · 352 阅读 · 1 评论 -
Yarn基本组成结构
Yarn基本组成结构一、ResourceManager:是一个全局的资源管理器,负责整个系统的资源管理和分配。它主要由两个组件构成:调度器(Scheduler)和应用程序管理器(ApplicationMaster)1)调度器(Scheduler):将系统中的资源分配给各个正在运行的应用程序;应用程序管理器(ApplicationMaster):负责管理整个系统中所有应用程序,包...2014-02-11 11:20:25 · 355 阅读 · 0 评论 -
MapReduce 1.0基本组成结构介绍
MapReduce 1.0基本组成结构介绍一、JobTracker:JobTracker是整个MapReduce计算框架中的主服务,相当于集群的管理者,负责整个集群的作业控制和资源管理。1)作业控制模块,负责作业的分解和状态的监控。其中,最重要的是状态的监控,主要包括TaskTracker状态监控、作业状态监控、任务状态监控等。其最主要的作用有两个:容错和为任务调度提供决策依据。...2014-02-11 11:19:32 · 3167 阅读 · 0 评论 -
Task运行过程分析
2 Task运行过程分析Map Task分解成Read、Map、Collect、Spill、Combine五个阶段,Reduce Task分解成Shuffle、Merge、Sort、Reduce、Write五个阶段。2.1 Map Task整体流程1) Read阶段:Map Task通过用户编写的RecordReader,从输入InputSplit中解析出一个个key/value;...原创 2013-12-03 17:34:15 · 100 阅读 · 0 评论 -
MapReduce编程模型简解
1 MapReduce编程模型根据运行顺序,主要由以下五部分组成:1.1 InputFormat主要用于描述输入数据的格式。提供以下两个功能:1) 数据切分:按照某个策略将输入数据切分成若干个split,以便确定Map Task个数以及对应的split;2) 为Mapper提供输入数据:给定某个split,能将其解析成一个个key/value对。包含算法:1) 文件...2013-12-03 17:12:34 · 116 阅读 · 0 评论 -
Hadoop集群的配置调优
一、背景HADOOP的配置优化,涉及到多方面,本部分主要针对HADOOP集群的配置优化进行汇总,以供参考。二、配置1、hdfs-site.xml配置文件1)、dfs.block.size:块大小的设置,也就是说文件按照多大的size 来切分块。一般来说,块的大小也决定了你map 的数量。举个例子:我现在有一个1T 的文件,如果我的块size 设置是默认的64M,那么在HDF...原创 2011-11-09 16:59:47 · 200 阅读 · 0 评论 -
hadoop重用Decommission状态的数据节点
一、背景本篇主要针对Decommission状态的数据节点重用的处理方法。如果是完全新增一个服务器作为新增节点,可参考本博客:http://szjian.iteye.com/admin/blogs/1221163二、操作1、在$HADOOP_HOME目录下,新建一个slaves.include文件(此文件名可随机取).它是一个文本, 里面每行就是想要使用的主机名或IP地址。 ...2011-11-04 10:11:47 · 432 阅读 · 0 评论 -
hadoop的namenode和secondnamenode分开部署在不同服务器
一、系统环境:Hadoop 0.20.2、JDK 1.6、Linux操作系统二、使用背景网上关于hadoop的集群配置,很多情况下,都是把namenode和secondnamenode部署在同一服务器上。为了降低风险,一个大的集群环境,最好是把这两个配置到不同的服务器上。三、操作要达到这要求,需要对conf/master、conf/hdfs-site.xml和conf/...2011-11-03 17:55:52 · 587 阅读 · 0 评论 -
Hive UDF开发
Hive进行UDF开发十分简单,此处所说UDF为Temporary的function,所以需要hive版本在0.4.0以上才可以。Hive的UDF开发只需要重构UDF类的evaluate函数即可。例:package com.hrj.hive.udf;import org.apache.hadoop.hive.ql.exec.UDF;public class helloUDF...原创 2011-10-31 09:26:36 · 71 阅读 · 0 评论 -
Win7下用Eclipse向Hadoop2.5.2集群提交MapReduce程序的注意事项
主要描述下,在Win7环境下,通过eclipse往集群提交MapReduce程序的过程。一、环境说明:开发环境:WIN7Eclipse版本:eclipse-jee-indigoHadoop版本:Hadoop2.5.2MR运行模式:Yarn 二、使用MapReduce的Eclipse插件:插件名称:hadoop-eclipse-plugin-2.5.2.ja...原创 2016-04-14 11:14:14 · 174 阅读 · 0 评论