hadoop
文章平均质量分 76
奔跑-起点
这个作者很懒,什么都没留下…
展开
-
hadoop2.6.集群搭建
hadoop2.0已经发布了稳定版本了,增加了很多特性,比如HDFS HA、YARN等。最新的hadoop-2.4.1又增加了YARN HA免密码登陆 和时间同步关闭seliux 配置hosts 注意:apache提供的hadoop-2.4.1的安装包是在32位操作系统编译的,因为hadoop依赖一些C++的本地库,所以如果在64位的操作上安装hadoop-2.4.1就需要重新在6原创 2016-03-14 18:10:44 · 634 阅读 · 0 评论 -
Hadoop 开源调度系统zeus
https://github.com/alibaba/zeus对海量数据进行处理时,目前大部分公司都采用Hadoop来对数据进行离线处理,但是由于业务场景,经常一个MR或者Hive或者其他形式的任务无法直接完成业务需要,需要任务之间按照特定关系来执行(任务流),例如任务1执行完成之后,才能执行任务2、任务2执行完成之后才能执行任务3和4,在这种情况下需要一套调度系统把各个任务之间的依赖原创 2016-08-29 13:32:08 · 4222 阅读 · 0 评论 -
Yarn资源分配示例
Yarn资源分配示例1 简介此手册应用于yarn资源按照队列分配的情景。2 准备2.1 环境说明hadoop版本: hadoop-2.5.0-cdh5.3.33 配置3.1 配置说明1) Yarn-site.xml里配置yanr能用到的资源总数以及公平调度策略所在路径#在虚拟机关机情况下,选中后点击设置,在控制器SATA处点转载 2016-10-09 11:55:52 · 1411 阅读 · 0 评论 -
利用yarn多队列实现hadoop资源隔离
大数据处理离不开hadoop集群的部署和管理,对于本来硬件资源就不多的创业团队来说,做好资源的共享和隔离是很有必要的,毕竟不像BAT那么豪,那么怎么样能把有限的节点同时分享给多组用户使用而且互不影响呢,我们来研究一下yarn多队列做资源隔离请尊重原创,转载请注明来源网站www.shareditor.com以及原始链接地址CapacityScheduler使用过第一代hado原创 2016-12-11 18:13:18 · 17739 阅读 · 1 评论 -
读懂hadoop、hbase、hive、spark分布式系统架构
机器学习、数据挖掘等各种大数据处理都离不开各种开源分布式系统,hadoop用于分布式存储和map-reduce计算,spark用于分布式机器学习,hive是分布式数据库,hbase是分布式kv系统,看似互不相关的他们却都是基于相同的hdfs存储和yarn资源管理,本文通过全套部署方法来让大家深入系统内部以充分理解分布式系统架构和他们之间的关系本文结构首先,我们来分别部署一套hado原创 2016-12-11 18:16:25 · 4029 阅读 · 1 评论 -
Hadoop Snappy安装终极教程
原创作品,允许转载,转载时请务必以超链接形式标明文章 原始出处 、作者信息和本声明。否则将追究法律责任。http://shitouer.cn/2013/01/hadoop-hbase-snappy-setup-final-tutorial/ 因为产品需要,这两天研究了一下Hadoop Snappy。先不说什么各个压缩算法之间的性能对比,单是这个安装过程,就很痛苦。网上有很多博友写H转载 2016-12-12 16:02:13 · 6737 阅读 · 1 评论 -
win10+eclipse+hadoop2.6.0 开发环境
本人环境为win10 eclipse是 luna 在win10下,安装了vm workstation,其上安装了centos6.5 ,并在上面部署了hadoop2.6.4的伪分布式安装一、 目标 设置win10下的eclipse开发环境,并且可以在此环境上开发Hadoop应用,并在伪分布式hadoop环境下测试。原创 2016-12-12 19:12:47 · 1554 阅读 · 0 评论 -
了解Hadoop数据类型,输入输出格式及用户如何自定义。
一:Hadoop内置的数据类型。 Hadoop提供如下内置的数据类型,这些数据类型都实现了WritableComparable接口,以便用这些类型定义的数据可以被序列化进行网络传输和文件存储,以及进行大小比较。BooleanWritable标准布尔型数值ByteWritable单字节数值DoubleWritable双字节数F原创 2016-11-24 18:54:47 · 3032 阅读 · 0 评论 -
hadoop之MapReducer作业的提交执行过程
debug信息列出要切片的所有文件:[DeprecatedRawLocalFileStatus{path=file:/D:/a.txt; isDirectory=false; length=58; replication=1; blocksize=33554432; modification_time=1481531168562; access_time=0; owner=; group=;原创 2016-12-14 15:01:54 · 968 阅读 · 1 评论 -
Hadoop YARN配置参数剖析(5)—Capacity Scheduler相关参数
Capacity Scheduler是YARN中默认的资源调度器。想要了解Capacity Scheduler是什么,可阅读我的这篇文章“Hadoop Capacity Scheduler分析”。在Capacity Scheduler的配置文件中,队列queueX的参数Y的配置名称为yarn.scheduler.capacity.queueX.Y,为了简单起见,我们记为Y,则每个队转载 2016-12-14 15:46:23 · 901 阅读 · 0 评论 -
Ambari——大数据平台的搭建利器之进阶篇[配置spark]
虽然大数据越来越流行,但其学习的门槛却一直阻碍着很多的初学者,而且各个产品之间的集成和维护也显得比较困难。不管是 Hadoop V1 或者 V2 的安装,又或者 Spark/YARN 等的集成,都不是几行简单的命令,而是要关联到许多的配置。有了 Ambari,这些都不再是难题前言本文适合已经初步了解 Ambari 的读者。对 Ambari 的基础知识,以及 Ambari原创 2017-01-18 10:41:17 · 6614 阅读 · 0 评论 -
Hadoop在运行几个T数据量时报堆内存溢出
问题描述: Hadoop提交作业,运行几个T数据量,由于数据量巨大,造成HADOOP频频的报出JAVA堆内存溢出。错误日志: Error: java.lang.OutOfMemoryError: Java heap space at sun.net.www.http.ChunkedInputStream.processRaw(ChunkedInputStream.java:354)原创 2016-03-10 18:05:31 · 4077 阅读 · 0 评论 -
关于影响NodeManager执行MR任务constainer数量的设置问题
在使用hadoop进行离线大数据处理的时候,集群规模比较下,内存受到限制,由于要跑MR,因此Mapper和Reducer的数量直接决定程序的执行,由于默认情况下 一个bolck块对应一个Mapper,一个Mapper需要向ResourceManager申请执行的资源,ResourceManager进行资源分配而NodeManager负责资源的供给和隔离,由于执行的文件特别大,因此启动了很多的Map原创 2016-03-10 12:50:40 · 4812 阅读 · 0 评论 -
azkaban的最简版搭建
官网:http://azkaban.github.io/1、下载安装包azkaban-web-server-2.5.0.tar.gzazkaban-executor-server-2.5.0.tar.gz2、创建一个名字为azkaban的文件夹,解压缩以上两个文件到azkaban目录3、重命名以上解压之后的文件夹 webserver和executor4、配置webs原创 2016-03-03 16:41:16 · 1945 阅读 · 0 评论 -
hadoop远程调试
JPDA 简介Sun Microsystem 的 Java Platform Debugger Architecture (JPDA) 技术是一个多层架构,使您能够在各种环境中轻松调试 Java 应用程序。JPDA 由两个接口(分别是 JVM Tool Interface 和 JDI)、一个协议(Java Debug Wire Protocol)和两个用于合并它们的软件组件(后端和前端)组成。原创 2016-03-01 15:26:08 · 762 阅读 · 0 评论 -
Hadoop2.2伪分布式搭建步骤
1.准备Linux环境 1.0点击VMware快捷方式,右键打开文件所在位置 -> 双击vmnetcfg.exe -> VMnet1 host-only ->修改subnet ip 设置网段:192.168.1.0 子网掩码:255.255.255.0 -> apply -> ok 回到windows --> 打开网络和共享中心 -> 更改适配器设置 -> 右键V原创 2016-03-01 15:27:03 · 547 阅读 · 0 评论 -
Map端的调优属性
原创 2016-03-01 15:41:45 · 681 阅读 · 0 评论 -
hadoop2.xHA机制的实现原理
在Hadoop2.0.0之前,NameNode(NN)在HDFS集群中存在单点故障(single point of failure),每一个集群中存在一个NameNode,如果NN所在的机器出现了故障,那么将导致整个集群无法利用,直到NN重启或者在另一台主机上启动NN守护线程。 主要在两方面影响了HDFS的可用性: (1)、在不可预测的情况下,如果NN所在的机器崩溃了,整个集群将无原创 2016-03-01 17:34:18 · 777 阅读 · 0 评论 -
hadoop1.0集群搭建
1.启动Linux,选择I copy it(选择move是mac地址不变,选择copy,会新产生一mac地址)2.配置Linux环境 2.1执行ifconfig命令发现,可用的网卡是eth1 HWaddr 2.2将eth1的新的mac地址复制下来,替换原来eth0里旧的的mac地址 vim /etc/sysconfig/network-scrip原创 2016-03-01 17:39:53 · 423 阅读 · 0 评论 -
hadoop1.2.1伪分布式搭建
0.使用host-only方式 将Windows上的虚拟网卡改成跟Linux上的网卡在同一网段 注意:一定要将widonws上的WMnet1的IP设置和你的虚拟机在同一网段,但是IP不能相同1.Linux环境配置(windows下面的防火墙也要关闭) 1.1修改主机名 vim /etc/sysconfig/network 1原创 2016-03-01 17:41:22 · 412 阅读 · 0 评论 -
HDFS如何检测并删除多余副本块
前言在HDFS中,每时每刻都在进行着大量block块的创建和删除操作,这些庞大的block块构建起了这套复杂的分布式系统.普通block的读写删除操作一般人都或多或少了解过一些,但是过量的副本清理机制是否有人知道呢,就是overReplicatedBlock的处理,针对过量的副本块,HDFS怎么处理,何时处理,处理的策略机制如何,本文就给大家分享HDFS在这方面的知识.过量副本转载 2016-03-01 17:45:46 · 3790 阅读 · 0 评论 -
ganglia集群监控搭建步骤
注:使用root用户进行操作 Ganglia 是 UC Berkeley 发起的一个开源监视项目,设计用于测量数以千计的节点。每台计算机都运行一个收集和发送度量数据(如处理器速度、内存使用量等)的名为 gmond 的守护进程。它将从操作系统和指定主机中收集。接收所有度量数据的主机可以显示这些数据并且可以将这些数据的精简表单传递到层次结构中。正因为有这种层次结构模式,才使得 Ganglia 可原创 2016-03-01 20:55:06 · 703 阅读 · 0 评论 -
docker的安装--基于docker1.6
以centos7(64位)为例:必须是64位系统,建议使用英文版本,中文版本也会有问题。系统能连接外网1:验证linux内核版本uname -a,官方建议使用3.8版本以上。升级内核参考:http://segmentfault.com/blog/seanlook/1190000000733628(建议使用centos7-x64,如果自己升级内核,可能会有问题。)2:检查Devi原创 2016-03-01 20:57:37 · 1305 阅读 · 0 评论 -
centos6.5安装docker
由于docker安装需要内核为3.8以上 【uname -a】 一、升级内核1> rpm --import https://www.elrepo.org/RPM-GPG-KEY-elrepo.org2>rpm -ivh http://www.elrepo.org/elrepo-release-6-5.el6.elrepo.noarch.rpm3>yum --enablerepo=e原创 2016-03-01 20:59:17 · 805 阅读 · 0 评论 -
hadoop 集群调度 Azkaban2搭建
注:这里的服务器由于用到SSL,需要https协议,别打成 http安装配置:-----https://github.com/bbaiggey/AzkabanInstall介绍Azkaban是由Linkedin开源的一个批量工作流任务调度器。用于在一个工作流内以一个特定的顺序运行一组工作和流程。Azkaban定义了一种KV文件格式来建立任务之间的依赖关系,并提供一个易于使用的web原创 2016-03-01 20:51:22 · 2743 阅读 · 2 评论 -
hadoop中4种压缩格式的特征的比较
1 gzip压缩优点:压缩率比较高,而且压缩/解压速度也比较快;hadoop本身支持,在应用中处理gzip格式的文件就和直接处理文本一样;有hadoop native库;大部分linux系统都自带gzip命令,使用方便。缺点:不支持split。应用场景:当每个文件压缩之后在130M以内的(1个块大小内),都可以考虑用gzip压缩格式。譬如说一天或者一个小时的日志压缩成一个gzip 文件原创 2017-03-16 10:50:43 · 1362 阅读 · 0 评论