自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(21)
  • 收藏
  • 关注

转载 MapReduce 调优

Hadoop平台已经成为了大多数公司的分布式数据处理平台,随着数据规模的越来越大,对集群的压力也越来越大,集群的每个节点负担自然就会加重,而且集群内部的网络带宽有限,数据交换吞吐量也在面临考验,由此引发了人们对大规模数据处理进行优化的思考。本文仅从实践经验出发,针对Hadoop Job优化提出了一些观点,不包含HDFS的优化。Job Tracker Related严格来说,下面这个配置...

2016-07-29 16:34:12 288

转载 通过sed和awk获取集群最新挂掉的DataNode信息

由于之前远程桌面不好使,集群出现了missing block的时候没法登陆远程桌面查看是那些节点由于重启导致DataNode进程挂掉。同时简单的用命令hdfs dfsadmin -report查看又不方便,信息量太多,以下是一个用sed和awk实现的简单的脚本:cat lastDeadNodes.shhdfs dfsadmin -report > all.log#sed -n

2016-07-12 14:13:55 487

转载 Flume NG 简介及配置实战

Flume 作为 cloudera 开发的实时日志收集系统,受到了业界的认可与广泛应用。Flume 初始的发行版本目前被统称为 Flume OG(original generation),属于 cloudera。但随着 FLume 功能的扩展,Flume OG 代码工程臃肿、核心组件设计不合理、核心配置不标准等缺点暴露出来,尤其是在 Flume OG 的最后一个发行版本 0.94.0 中,日志传输

2016-06-21 17:13:23 468

转载 Flume环境部署和配置详解及案例大全

一、什么是Flume?  flume 作为 cloudera 开发的实时日志收集系统,受到了业界的认可与广泛应用。Flume 初始的发行版本目前被统称为 Flume OG(original generation),属于 cloudera。但随着 FLume 功能的扩展,Flume OG 代码工程臃肿、核心组件设计不合理、核心配置不标准等缺点暴露出来,尤其是在 Flume OG 的最后一个发行版

2016-06-17 17:52:22 2294

转载 Flume-NG源码阅读之HDFSEventSink

HDFSEventSink是flume中一个很重要的sink,配置文件中type=hdfs。与此sink相关的类都在org.apache.flume.sink.hdfs包中。HDFSEventSink算是一个比较复杂的sink,包下涉及的源代码文件数多达13个。。。可配置的参数众多。。。希望我能讲清楚。一、首先依然是看configure(Context context)方法,用来获

2016-06-17 17:51:18 769

转载 NN & SN & DN

HDFS对管理hadoop来说,深入了解namenode和辅助的namenode即secondarynamenode十分重要。namenode的目录结构主要如下:${dfs.name.dir}/current/VERSION /edits /fsimage

2016-06-13 15:17:10 1600

转载 Hadoop2.2.0已经遗弃的属性名称

Hadoop自升级到2.x版本之后,有很多属性的名称已经被遗弃了,虽然这些被遗弃的属性名称目前还可以用,但是这里还是建议用新的属性名,主要遗弃的属性名称主要见下面表格:已经被遗弃属性的名称新的属性名称create.empty.dir.if.nonexistmapreduce.jobcontrol.createdir.ifnotexistd

2016-06-13 15:15:41 410

转载 Hadoop YARN配置参数剖析(5)—Capacity Scheduler相关参数

Capacity Scheduler是YARN中默认的资源调度器。想要了解Capacity Scheduler是什么,可阅读我的这篇文章“Hadoop Capacity Scheduler分析”。在Capacity Scheduler的配置文件中,队列queueX的参数Y的配置名称为yarn.scheduler.capacity.queueX.Y,为了简单起见,我们记为Y,则每个队

2016-06-05 21:51:24 330

转载 Hadoop YARN配置参数剖析(4)—Fair Scheduler相关参数

首先在yarn-site.xml中,将配置参数yarn.resourcemanager.scheduler.class设置为org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FairScheduler。Fair Scheduler的配置选项包括两部分,其中一部分在yarn-site.xml中,主要用于配置调度器级别的参

2016-06-05 21:50:47 373

转载 Hadoop YARN配置参数剖析(3)—MapReduce相关参数

MapReduce相关配置参数分为两部分,分别是JobHistory Server和应用程序参数,Job History可运行在一个独立节点上,而应用程序参数则可存放在mapred-site.xml中作为默认参数,也可以在提交应用程序时单独指定,注意,如果用户指定了参数,将覆盖掉默认参数。以下这些参数全部在mapred-site.xml中设置。1.    MapReduce Job

2016-06-05 21:50:00 467

转载 Hadoop YARN配置参数剖析(2)—权限与日志聚集相关参数

注意,配置这些参数前,应充分理解这几个参数的含义,以防止误配给集群带来的隐患。另外,这些参数均需要在yarn-site.xml中配置。1.    权限相关配置参数这里的权限由三部分组成,分别是:(1)管理员和普通用户如何区分 (2)服务级别的权限,比如哪些用户可以向集群提交ResourceManager提交应用程序,(3)队列级别的权限,比如哪些用户可以向队列A提交作业等。

2016-06-05 21:49:07 690

转载 hadoop三个配置文件的参数含义说明

hadoop常用端口配置1. HDFS端口参数描述默认配置文件例子值fs.default.namenamenode RPC交互端口8020core-site.xmlhdfs://master:8020/

2016-06-05 21:03:07 11925

转载 Hadoop YARN配置参数剖析(1)—RM与NM相关参数

注意,配置这些参数前,应充分理解这几个参数的含义,以防止误配给集群带来的隐患。另外,这些参数均需要在yarn-site.xml中配置。1.    ResourceManager相关配置参数(1) yarn.resourcemanager.address参数解释:ResourceManager 对客户端暴露的地址。客户端通过该地址向RM提交应用程序,杀死应用程序等。

2016-06-05 20:56:55 283

转载 hadoop 参数配置

Hadoop参数汇总@(hadoop)[配置]linux参数以下参数最好优化一下:文件描述符ulimit -n用户最大进程 nproc (hbase需要 hbse book)关闭swap分区设置合理的预读取缓冲区Linux的内核的IO调度器JVM参数JVM方面的优化项Hadoop Performance Tuning Guide

2016-06-05 20:53:35 856

转载 Hadoop 2.0中用户安全伪装/模仿机制实现原理

本文将从用户伪装(impersonate,翻译成“模仿”也许更好些)角度介绍Hadoop安全机制,用户伪装机制使得Hadoop支持类似于linux “sudo”的功能,即用户A以用户B的身份执行功能。该机制属于Hadoop安全机制的一部分,因此适用于Hadoop 1.0之后的版本(尽管本文标题包含“hadoop 2.0”字样)。在Hadoop 1.0之前,用户管理方面是非常脆弱的,在MapRedu

2016-06-05 16:24:14 1007

转载 Hadoop YARN中内存和CPU两种资源的调度和隔离

Hadoop  YARN同时支持内存和CPU两种资源的调度(默认只支持内存,如果想进一步调度CPU,需要自己进行一些配置),本文将介绍YARN是如何对这些资源进行调度和隔离的。在YARN中,资源管理由ResourceManager和NodeManager共同完成,其中,ResourceManager中的调度器负责资源的分配,而NodeManager则负责资源的供给和隔离。ResourceMan

2016-06-03 17:57:18 596

转载 日志聚集相关配置参数

日志聚集是YARN提供的日志中央化管理功能,它能将运行完成的Container/任务日志上传到HDFS上,从而减轻NodeManager负载,且提供一个中央化存储和分析机制。默认情况下,Container/任务日志存在在各个NodeManager上,如果启用日志聚集功能需要额外的配置。(1) yarn.log-aggregation-enable参数解释:是否启用日志聚集功能。

2016-06-03 17:45:26 345

转载 配置高可用的Hadoop平台

1.概述 在Hadoop2.x之后的版本,提出了解决单点问题的方案--HA(High Available 高可用)。这篇博客阐述如何搭建高可用的HDFS和YARN,执行步骤如下:创建hadoop用户 安装JDK 配置hosts 安装SSH 关闭防火墙 修改时区 ZK(安装,启动,验证) HDFS+HA的结构图 角色分配 环境变量配置 核心文件配置 slave 启动命令(hdfs和y

2016-06-03 15:51:00 657

转载 hadoop2.x通过Zookeeper来实现namenode的HA方案以及ResourceManager单点故障的解决方案

我们知道hadoop1.x之前的namenode存在两个主要的问题:1、namenode内存瓶颈的问题,2、namenode的单点故障的问题。针对这两个问题,hadoop2.x都对它进行改进和解决。其中,问题1中对namenode内存瓶颈的问题采用扩展namenode的方式来解决。对于问题2中的namenode的单点故障问题hadoop2.x采用的是HA的解决方案。apache hadoop 官方

2016-06-03 14:16:15 1198

转载 数据库索引的优缺点

创建索引可以大大提高系统的性能:第一,通过创建唯一性索引,可以保证数据库表中每一行数据的唯一性。 第二,可以大大加快数据的检索速度,这也是创建索引的最主要的原因。 第三,可以加速表和表之间的连接,特别是在实现数据的参考完整性方面特别有意义。 第四,在使用分组和排序 子句进行数据检索时,同样可以显著减少查询中分组和排序的时间。 第五,通过使用索引,可以在查询的过程中,使用优化隐藏

2016-05-15 21:12:21 292

转载 Hive中的NULL问题

Hive中有种假NULL,它看起来和NULL一摸一样,但是实际却不是NULL。空值NULL在底层默认是用'\N'来存储的,可以通过serialization.null.format的设置或创建表时指定结构来修改表的默认的null表示方式。具体内容请看如下例:测试表 sunwg00hive> select * from sunwg00;OKNULL

2016-05-12 22:11:13 1527

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除