Hadoop
技术蚂蚁
这个作者很懒,什么都没留下…
展开
-
Hadoop2.0的HA介绍
Hadoop2.0的HA介绍时间 2014-05-03 17:42:25 Linux公社原文 http://www.linuxidc.com/Linux/2014-05/101174.htm主题 Hadoop NFS前一篇文章介绍了Hadoop2.0(hadoop2.0架构,具体版本是hadoop2.2.0)的安装和最基本的配置(见 http://www.l转载 2017-03-08 21:57:10 · 408 阅读 · 0 评论 -
Hadoop yarn协议汇总
原文:http://shiyanjun.cn/archives/1119.htmlApplicationClientProtocol(Client -> RM)协议方法功能描述getNewApplication获取一个新的ApplicationId,例如返回的ApplicationId为application_1418024756741转载 2016-09-03 20:58:00 · 951 阅读 · 0 评论 -
Hadoop 2.0 Yarn代码:ResourcesManager端代码_RM端各模块服务的启动
1.概览以下介绍的NodeManager是如何启动和注册各个服务的主要涉及的Java文件hadoop-yarn-server-resourcemanager下的包org.apache.hadoop.yarn.server.resourcemanager:ResourcesManager.java 2.代码分析Hadoop启动时。ResourcesManager的转载 2016-10-23 10:36:12 · 451 阅读 · 0 评论 -
Hadoop 2.0 Yarn代码:NodeManager端代码分析_NM端各服务模块的启动
1.概览以下介绍的NodeManager是如何启动和注册各个服务的主要涉及的Java文件hadoop-yarn-server-nodemanager下的包org.apache.hadoop.yarn.server.nodemanager NodeManager.java 2.代码分析以下均在NodeManager.java中,NodeManager转载 2016-10-23 10:35:23 · 529 阅读 · 0 评论 -
Hadoop 2.0 Yarn代码:RM与NM代码_心跳驱动服务分析_1 初始阶段(Job提交前)
1.概览当RM(ResourcesManager)和NM(NodeManager)陆续将所有模块服务启动,最后启动是NodeStatusUpdater,NodeStatusUpdater将用Hadoop RPC远程调用ResourcesTrackerService中的函数,进行资源是初始化等操作,为将要运行的Job做好准备。以下主要分析在Job提交之前 RM与NM在心跳的驱动下操作。主要涉转载 2016-10-23 10:34:11 · 617 阅读 · 0 评论 -
Eclipse 下以yarn方式运行Hadoop
1,在工程src目录下加入mapred-site.xml和yarn-site.xml2,在main方法中添加一个conf的配置参数 conf.set("mapreduce.jar","wc.jar")注意:wc.jar--自定义jar包名称3,执行maven install把工程打成jar包4,在target目录下找到jar包,右键,build path->add to bui原创 2016-10-22 17:15:31 · 1178 阅读 · 0 评论 -
Eclipse+hadoop2.6.2源码编译导入
1. 安装Apache Maven。这方面的文章挺多,参考:http://blog.csdn.net/july_2/article/details/32102959修改eclipse maven配置:windows->preference->maven->user setting,到自己maven安装目录下。我的:/home/zfh/apache/maven-3.3.9/conf/sett原创 2016-09-19 21:45:12 · 1972 阅读 · 0 评论 -
mapreduce合并小文件CombineFileInputFormat
小文件是指文件size小于HDFS上block大小的文件。这样的文件会给hadoop的扩展性和性能带来严重问题。首先,在HDFS中,任何block,文件或者目录在内存中均以对象的形式存储,每个对象约占150byte,如果有1000 0000个小文件,每个文件占用一个block,则namenode大约需要2G空间。如果存储1亿个文件,则namenode需要20G空间(见参考资料[1][4][5])。转载 2016-08-27 07:11:46 · 5308 阅读 · 0 评论 -
Hadoop 2.6 MapReduce运行原理详解
Hadoop 2.6 MapReduce运行原理详解 市面上的hadoop权威指南一类的都是老版本的书籍了,索性学习并翻译了下最新版的Hadoop:The Definitive Guide, 4th Edition与大家共同学习。 我们通过提交jar包,进行MapReduce处理,那么整个运行过程分为五个环节: 1、向client端提交MapReduce job. 2、转载 2016-09-04 20:06:18 · 10149 阅读 · 1 评论 -
Hadoop 2.6.2 伪分布安装
一,安装环境 硬件:虚拟机 操作系统:Centos 6.5 64位 IP:192.168.1.105(根据自己实际情况设定)主机名:hadoop安装用户:root二,安装JDK 安装JDK1.7或者以上版本。这里安装jdk-7u75-linux-x64.gz。 1,tar -zxvf jdk-7u75-linux-x64.gz jdk1.72,chmod原创 2016-08-13 11:14:26 · 377 阅读 · 0 评论 -
YARN工作流程
当用户向YARN中提交一个应用程序后,YARN将分两个阶段运行该应用程序:第一个阶段是启动ApplicationMaster;第二个阶段是由ApplicationMaster创建应用程序,为它申请资源,并监控它的整个运行过程,直到运行完成。如图2-11所示,YARN的工作流程分为以下几个步骤: 步骤1 用户向YARN中提交应用程序,其中包括Applicati转载 2016-09-03 20:32:45 · 1310 阅读 · 0 评论 -
YARN 设计理念与基本架构
YARN 设计理念与基本架构字数1089 阅读1280 评论0 喜欢7YARN 的基本组成结构一. ResourceManagerResourceManager 是一个全局的资源管理器,负责整个集群的资源管理和分配。它主要由两个组件构成:调度器(Scheduler)和应用程序管理器(Applications Master,ASM)。①调度器该调度器是一个 "纯调度器转载 2016-09-03 07:42:49 · 322 阅读 · 0 评论 -
数据按列排序
对一些有指定分隔符的数据,按照对应列数进行自定义排序原始数据:[java] view plain copy print?hadoop@sh-hadoop:more sourText.txt hadoop|234|2346|sdfasdgadfgdfg spark|534|65745|fhsdfghdfgh hive|65|6585|shsfg转载 2016-08-21 10:15:17 · 428 阅读 · 0 评论 -
自定义-Hadoop自定义分组Group
自定义分组MyGroup:主要是继承WritableComparator类,重写compare函数我这里重写的是该源码函数:[java] view plain copy print?/** Compare two WritableComparables. * * The default implementation uses转载 2016-08-21 10:13:06 · 1980 阅读 · 0 评论 -
MapReduce-使用NLineInputFormat处理大文件-求文件奇偶数行之和
在上一篇《MapReduce-定制Partitioner-求文件奇偶数行之和》博客中有朋友提到“如果文件很大,就被分成了多个record,那么每个record中的文件的奇数和偶数相对于原来的文件来说,就不确定了”这样一个问题,这一篇文章就对这种情况的处理进行说明一下,解决的思路如下:我们只要固定每一个inputSplit的行数,我们就可以确定某一个inputSplit的某一行在整个文件中是奇数转载 2016-08-21 10:09:38 · 431 阅读 · 0 评论 -
MapReduce-定制Partitioner-求文件奇偶数行之和
这篇博客说明Partioner定制的问题,partion发生在map阶段的最后,会先调用job.setPartitionerClass对这个List进行分区,每个分区映射到一个reducer。每个分区内又调用job.setSortComparatorClass设置的key比较函数类排序。前面的几篇博客的实例都是用的一个reducer,这个实例的完成将使用二个reducer的情况,至于多reduce转载 2016-08-21 10:07:45 · 618 阅读 · 0 评论 -
Hadoop2源码分析-YARN 的服务库和事件库
1.概述 在《Hadoop2源码分析-YARN RPC 示例介绍》一文当中,给大家介绍了YARN 的 RPC 机制,以及相关代码的演示,今天我们继续去学习 YARN 的服务库和事件库,分享目录如下所示:服务库和事件库介绍使用示例截图预览 下面开始今天的内容分享。2.服务库和事件库介绍2.1服务库 YARN对于生命周期较长的对象使用服务的对象转载 2016-10-13 21:36:04 · 315 阅读 · 0 评论 -
高可用Hadoop平台-实战(电商网站的用户行为分析)
今天要和大家分享的案例是一个基于电商网站的用户行为分析,这里分析的指标包含以下指标:统计每日PV每日注册用户每日IP跳出用户 其他指标可以参考上述4个指标进行拓展,下面我们开始今天的分析之旅。2.流程 首先,在开发之前我们需要注意哪些问题?我们不能盲目的按照自己的意愿去开发项目,这样到头来得不到产品的认可,我们的工作又得返工。下面结合自身的工作,说说开发的具体流转载 2016-10-13 21:43:01 · 5071 阅读 · 0 评论 -
使用hadoop读写mysql
与MongoDB相比,Hadoop提供了内置的输入输出库DBInputFormat和DBOutputFormat,但是依然要使用JDBC驱动包com.MySQL.jdbc.Driver。没有的可以去http://www.mysql.com/products/connector/ 下载。下下来后,只要把该包放在项目路径下即可,切莫在文件中import该包中内容,只要import Java.s转载 2016-11-19 19:26:22 · 3776 阅读 · 0 评论 -
HDFS机架感知功能原理(rack awareness)
HDFS NameNode对文件块复制相关所有事物负责,它周期性接受来自于DataNode的HeartBeat和BlockReport信息,HDFS文件块副本的放置对于系统整体的可靠性和性能有关键性影响。一个简单但非优化的副本放置策略是,把副本分别放在不同机架,甚至不同IDC。这样可以防止整个机架、甚至整个IDC崩溃带来的错误,但是这样文件写必须在多个机架之间、甚至IDC之间传输,增加了副本写转载 2016-11-23 20:11:29 · 810 阅读 · 0 评论 -
Hadoop文件合并
整个代码的工作就是把本地目录下个若干个小文件,合并成一个较大的文件,写入到HDFS中。话不多说,代码如下: 补充说明:后来发现,书上的源代码是没有问题的,只不过是书上的源代码要打成jar包,放在集群的机器上去运行,如果在Eclipse下面调试运行的话,就会出现问题。出现问题的原因如下1234567//读取本地文件系统,如转载 2016-11-23 20:00:37 · 2598 阅读 · 0 评论 -
自定义输入文件格式类InputFormat
Hadoop代码测试环境:Hadoop2.4应用:在对数据需要进行一定条件的过滤和简单处理的时候可以使用自定义输入文件格式类。Hadoop内置的输入文件格式类有:1)FileInputFormat这个是基本的父类,我们自定义就直接使用它作为父类;2)TextInputFormat这个是默认的数据格式类,我们一般编程,如果没有特别指定的话,一般都使用的是这个;key代表当前行数据距离转载 2016-11-23 19:48:19 · 3872 阅读 · 0 评论 -
使用hadoop读写mongodb
由于我之前爬取的微博数据都放在MongoDB内,所以使用Hadoop来处理mongodb内的数据是很自然的一种选择。想要用hadoop读写mongodb内的数据,首先需要mongo-hadoop包。我是使用maven自动下载的,包名:org.mongodb.mongo-hadoop:mongo-hadoop-core 或者你也可以去http://search.maven.org/ 或者其他转载 2016-11-19 19:20:29 · 4361 阅读 · 0 评论 -
hadoop2.6.0的eclipse插件编译和设置
1.编译hadoop2.6.0的eclipse插件下载源码:git clone https://github.com/winghc/hadoop2x-eclipse-plugin.git编译源码:cd src/contrib/eclipse-plugin ant jar -Dversion=2.6.0 -Declipse.home=/opt/eclipse -转载 2016-11-13 18:09:06 · 498 阅读 · 0 评论 -
大数据Web日志分析 用Hadoop统计KPI指标实例
可以带着下面问题来阅读文章问题:1.MapReduce在日志分析的作用思考:该如何架构kpi系统,需要考虑什么问题。kpi:关键绩效指标法,即KPI绩效考核,是企业绩效考核的方法之一,其特点是考核指标围绕关键成果领域进行选取,均对关键绩效指标考核法的应用及其特点有所介绍。前言Web日志包含着网站最重要的信息,通过日志分析,我们可以知道网站的访问量,哪个网页访转载 2016-11-28 21:09:38 · 11157 阅读 · 0 评论 -
hadoop日志分析系统
环境:centos7+hadoop2.5.2+hive1.2.1+mysql5.6.22+indigo service 2思路:hive加载日志→Hadoop分布式执行→需求数据进入MySQL注意:hadoop日志分析系统网上资料很多,但是大多都有写小问题,无法顺利运行,但本文中都是经过亲自验证的,可以一气呵成。另外还包括可能遇到的异常的详细解释及相关解决方案。1) 日志格转载 2016-11-28 20:51:44 · 2800 阅读 · 0 评论 -
网站日志分析项目案例(二)数据清洗
一、数据情况分析1.1 数据情况回顾 该论坛数据有两部分: (1)历史数据约56GB,统计到2012-05-29。这也说明,在2012-05-29之前,日志文件都在一个文件里边,采用了追加写入的方式。 (2)自2013-05-30起,每天生成一个数据文件,约150MB左右。这也说明,从2013-05-30之后,日志文件不再是在一个文件里边。 图1展示转载 2016-11-28 20:40:06 · 1589 阅读 · 0 评论 -
网站日志分析项目案例(一)项目介绍
一、数据情况分析1.1 数据情况回顾 该论坛数据有两部分: (1)历史数据约56GB,统计到2012-05-29。这也说明,在2012-05-29之前,日志文件都在一个文件里边,采用了追加写入的方式。 (2)自2013-05-30起,每天生成一个数据文件,约150MB左右。这也说明,从2013-05-30之后,日志文件不再是在一个文件里边。 图1展示转载 2016-11-28 20:35:12 · 3576 阅读 · 0 评论 -
hadoop高级应用-搜索提示
先搭建简单的web项目,基于struts,使用到了bootstrap。界面:web.xml1 filter>2 filter-name>struts2filter-name>3 filter-class>org.apache.struts2.dispatcher.ng.filter.StrutsPrepareAndExecuteFilte转载 2016-10-15 22:43:06 · 410 阅读 · 0 评论 -
hadoop2 作业执行过程之作业提交
hadoop任务的提交常用的两种,一种是测试常用的IDE远程提交,另一种就是生产上用的客户端命令行提交通用的任务程序提交步骤为:1.将程序打成jar包;2.将jar包上传到HDFS上;3.用命令行提交HDFS上的任务程序。跟着提交步骤从命令行提交开始最简单的提交命令应该如:hadoop jar /home/hadoop/hadoop-2.2.0/hado转载 2016-10-15 22:40:00 · 2566 阅读 · 0 评论 -
hadoop2 作业执行过程之map过程
在执行MAP任务之前,先了解一下它的容器和它容器的领导:container和nodemanagerNodeManagerNodeManager(NM)是YARN中每个节点上的代理,它管理Hadoop集群中的单个计算节点,包括与ResourceManager保持通信,监督Container的生命周期管理,监控每个Container的资源使用(内存、CPU等)情况,追踪节点健康状况,管理日转载 2016-10-15 22:12:05 · 1104 阅读 · 0 评论 -
hadoop2 作业执行过程之yarn调度执行
YARN是hadoop系统上的资源统一管理平台,其主要作用是实现集群资源的统一管理和调度(目前还不完善,只支持粗粒度的CPU和内存的的调配);它的基本思想是将Mapreduce的jobtracker拆分成两个独立的服务:一个全局的资源管理器ResourceManager和每个应用程序特有的ApplicationMaster。其中ResourceManager负责整个系统资源的管理和分配,而Ap转载 2016-10-15 21:58:49 · 5371 阅读 · 0 评论 -
hadoop RPC框架实现和NameNode的交互
在此之前,我们需要准备:hadoop的源码protobuf 2.5版本JDKhadoop 2.x版本中采用了Protocol Buffer (简称protobuf)作为序列化和反序列化的工具,所以我们在修改源码时需要按照相应规则编写message来实现数据的传输。什么是protobuf?protobuf是Google 公司内部的混合语言数据标准,它很适合做数据存储或 RPC 数据交换格转载 2016-10-13 22:14:01 · 954 阅读 · 0 评论 -
Hadoop2源码分析-MapReduce篇
1.概述 前面我们已经对Hadoop有了一个初步认识,接下来我们开始学习Hadoop的一些核心的功能,其中包含mapreduce,fs,hdfs,ipc,io,yarn,今天为大家分享的是mapreduce部分,其内容目录如下所示:MapReduce V1MapReduce V2MR V1和MR V2的区别MR V2的重构思路 本篇文章的源码是基于hadoop-2.6.转载 2016-10-13 21:53:04 · 463 阅读 · 0 评论 -
NLineInputFormat用法-1
输入的数据:[java] view plain copy print?[root@i-love-you hadoop]# bin/hdfs dfs -text /input/hehe hadoop hello hadoop me hadoop java 代码:[java] view plain copy print转载 2016-08-21 10:05:04 · 770 阅读 · 0 评论 -
SequenceFileInputFormat用法
SequenceFileInputFormat只能处理SequenceFile类型的文件。代码:[java] view plain copy print?package inputformat; import java.io.IOException; import org.apache.hadoop.conf.Configuration; im转载 2016-08-21 10:01:29 · 868 阅读 · 0 评论 -
DBInputFormat用法
输入的数据库数据:代码:[java] view plain copy print?package hadoop_2_6_0; import java.io.DataInput; import java.io.DataOutput; import java.io.IOException; import java.sql.Pr转载 2016-08-21 09:57:10 · 1838 阅读 · 0 评论 -
Hadoop 中的 Combiner 过程
要点Combiner 所做的事情: 每一个map都可能会产生大量的本地输出,Combiner的作用就是对map端的输出先做一次合并,以减少在map和reduce节点之间的数据传输量;Combiner 的意义: 在MapReduce中,当map生成的数据过大时,带宽就成了瓶颈,当在发送给 Reduce 时对数据进行一次本地合并,减少数据传输量以提高网络IO性能;Combiner 的时转载 2016-09-10 15:30:27 · 941 阅读 · 0 评论 -
Hadoop之——Combiner编程
转载请注明出处:http://blog.csdn.net/l1028386804/article/details/46135857一、Mapper类的实现[java] view plain copy /** * KEYIN 即k1 表示行的偏移量 * VALUEIN 即v1 表示行文本内容 * KEYOUT 即k2 表转载 2016-09-10 15:23:51 · 328 阅读 · 0 评论 -
Secondary NameNode解读
Secondary NameNode从它的名字上来看,给人的感觉是NameNode的备份。但实际上不是这样。那到底Secondary NameNode在HDFS中扮演的是什么角色呢?从名字上来看Secondary NameNode与NameNode,都包含着NameNode,这两者是不是存在某种关系呢,先来看下NameNode是干什么的。NameNodeNameNode主要是用来保转载 2016-09-10 15:08:58 · 392 阅读 · 0 评论