hallelujahCTX-CSDN博客

转载 MapReduce 调优

Hadoop平台已经成为了大多数公司的分布式数据处理平台，随着数据规模的越来越大，对集群的压力也越来越大，集群的每个节点负担自然就会加重，而且集群内部的网络带宽有限，数据交换吞吐量也在面临考验，由此引发了人们对大规模数据处理进行优化的思考。本文仅从实践经验出发，针对Hadoop Job优化提出了一些观点，不包含HDFS的优化。Job Tracker Related严格来说，下面这个配置...

2016-07-29 16:34:12 288

转载通过sed和awk获取集群最新挂掉的DataNode信息

由于之前远程桌面不好使，集群出现了missing block的时候没法登陆远程桌面查看是那些节点由于重启导致DataNode进程挂掉。同时简单的用命令hdfs dfsadmin -report查看又不方便，信息量太多，以下是一个用sed和awk实现的简单的脚本：cat lastDeadNodes.shhdfs dfsadmin -report > all.log#sed -n

2016-07-12 14:13:55 487

Flume 作为 cloudera 开发的实时日志收集系统，受到了业界的认可与广泛应用。Flume 初始的发行版本目前被统称为 Flume OG（original generation），属于 cloudera。但随着 FLume 功能的扩展，Flume OG 代码工程臃肿、核心组件设计不合理、核心配置不标准等缺点暴露出来，尤其是在 Flume OG 的最后一个发行版本 0.94.0 中，日志传输

2016-06-21 17:13:23 468

转载 Flume环境部署和配置详解及案例大全

一、什么是Flume?　　flume 作为 cloudera 开发的实时日志收集系统，受到了业界的认可与广泛应用。Flume 初始的发行版本目前被统称为 Flume OG（original generation），属于 cloudera。但随着 FLume 功能的扩展，Flume OG 代码工程臃肿、核心组件设计不合理、核心配置不标准等缺点暴露出来，尤其是在 Flume OG 的最后一个发行版

2016-06-17 17:52:22 2295

转载 Flume-NG源码阅读之HDFSEventSink

HDFSEventSink是flume中一个很重要的sink，配置文件中type=hdfs。与此sink相关的类都在org.apache.flume.sink.hdfs包中。HDFSEventSink算是一个比较复杂的sink，包下涉及的源代码文件数多达13个。。。可配置的参数众多。。。希望我能讲清楚。一、首先依然是看configure(Context context)方法，用来获

2016-06-17 17:51:18 769

转载 NN & SN & DN

HDFS对管理hadoop来说，深入了解namenode和辅助的namenode即secondarynamenode十分重要。namenode的目录结构主要如下：${dfs.name.dir}/current/VERSION /edits /fsimage

2016-06-13 15:17:10 1600

转载 Hadoop2.2.0已经遗弃的属性名称

Hadoop自升级到2.x版本之后，有很多属性的名称已经被遗弃了，虽然这些被遗弃的属性名称目前还可以用，但是这里还是建议用新的属性名，主要遗弃的属性名称主要见下面表格：已经被遗弃属性的名称新的属性名称create.empty.dir.if.nonexistmapreduce.jobcontrol.createdir.ifnotexistd

2016-06-13 15:15:41 410

转载 Hadoop YARN配置参数剖析(5)—Capacity Scheduler相关参数

Capacity Scheduler是YARN中默认的资源调度器。想要了解Capacity Scheduler是什么，可阅读我的这篇文章“Hadoop Capacity Scheduler分析”。在Capacity Scheduler的配置文件中，队列queueX的参数Y的配置名称为yarn.scheduler.capacity.queueX.Y，为了简单起见，我们记为Y，则每个队

2016-06-05 21:51:24 330

转载 Hadoop YARN配置参数剖析(4)—Fair Scheduler相关参数

首先在yarn-site.xml中，将配置参数yarn.resourcemanager.scheduler.class设置为org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FairScheduler。Fair Scheduler的配置选项包括两部分，其中一部分在yarn-site.xml中，主要用于配置调度器级别的参

2016-06-05 21:50:47 373

转载 Hadoop YARN配置参数剖析(3)—MapReduce相关参数

MapReduce相关配置参数分为两部分，分别是JobHistory Server和应用程序参数，Job History可运行在一个独立节点上，而应用程序参数则可存放在mapred-site.xml中作为默认参数，也可以在提交应用程序时单独指定，注意，如果用户指定了参数，将覆盖掉默认参数。以下这些参数全部在mapred-site.xml中设置。1. MapReduce Job

2016-06-05 21:50:00 467

转载 Hadoop YARN配置参数剖析(2)—权限与日志聚集相关参数

注意，配置这些参数前，应充分理解这几个参数的含义，以防止误配给集群带来的隐患。另外，这些参数均需要在yarn-site.xml中配置。1. 权限相关配置参数这里的权限由三部分组成，分别是：（1）管理员和普通用户如何区分（2）服务级别的权限，比如哪些用户可以向集群提交ResourceManager提交应用程序，（3）队列级别的权限，比如哪些用户可以向队列A提交作业等。

2016-06-05 21:49:07 690

转载 hadoop三个配置文件的参数含义说明

hadoop常用端口配置1. HDFS端口参数描述默认配置文件例子值fs.default.namenamenode RPC交互端口8020core-site.xmlhdfs://master:8020/

2016-06-05 21:03:07 11931

转载 Hadoop YARN配置参数剖析(1)—RM与NM相关参数

注意，配置这些参数前，应充分理解这几个参数的含义，以防止误配给集群带来的隐患。另外，这些参数均需要在yarn-site.xml中配置。1. ResourceManager相关配置参数（1） yarn.resourcemanager.address参数解释：ResourceManager 对客户端暴露的地址。客户端通过该地址向RM提交应用程序，杀死应用程序等。

2016-06-05 20:56:55 283

转载 hadoop 参数配置

Hadoop参数汇总@(hadoop)[配置]linux参数以下参数最好优化一下：文件描述符ulimit -n用户最大进程 nproc （hbase需要 hbse book）关闭swap分区设置合理的预读取缓冲区Linux的内核的IO调度器JVM参数JVM方面的优化项Hadoop Performance Tuning Guide

2016-06-05 20:53:35 856

转载 Hadoop 2.0中用户安全伪装/模仿机制实现原理

本文将从用户伪装（impersonate，翻译成“模仿”也许更好些）角度介绍Hadoop安全机制，用户伪装机制使得Hadoop支持类似于linux “sudo”的功能，即用户A以用户B的身份执行功能。该机制属于Hadoop安全机制的一部分，因此适用于Hadoop 1.0之后的版本（尽管本文标题包含“hadoop 2.0”字样）。在Hadoop 1.0之前，用户管理方面是非常脆弱的，在MapRedu

2016-06-05 16:24:14 1008

转载 Hadoop YARN中内存和CPU两种资源的调度和隔离

Hadoop YARN同时支持内存和CPU两种资源的调度（默认只支持内存，如果想进一步调度CPU，需要自己进行一些配置），本文将介绍YARN是如何对这些资源进行调度和隔离的。在YARN中，资源管理由ResourceManager和NodeManager共同完成，其中，ResourceManager中的调度器负责资源的分配，而NodeManager则负责资源的供给和隔离。ResourceMan

2016-06-03 17:57:18 597

转载日志聚集相关配置参数

日志聚集是YARN提供的日志中央化管理功能，它能将运行完成的Container/任务日志上传到HDFS上，从而减轻NodeManager负载，且提供一个中央化存储和分析机制。默认情况下，Container/任务日志存在在各个NodeManager上，如果启用日志聚集功能需要额外的配置。（1） yarn.log-aggregation-enable参数解释：是否启用日志聚集功能。

2016-06-03 17:45:26 345

转载配置高可用的Hadoop平台

1.概述在Hadoop2.x之后的版本，提出了解决单点问题的方案－－HA（High Available 高可用）。这篇博客阐述如何搭建高可用的HDFS和YARN，执行步骤如下：创建hadoop用户安装JDK 配置hosts 安装SSH 关闭防火墙修改时区 ZK（安装，启动，验证） HDFS＋HA的结构图角色分配环境变量配置核心文件配置 slave 启动命令（hdfs和y

2016-06-03 15:51:00 657

转载 hadoop2.x通过Zookeeper来实现namenode的HA方案以及ResourceManager单点故障的解决方案

我们知道hadoop1.x之前的namenode存在两个主要的问题：1、namenode内存瓶颈的问题，2、namenode的单点故障的问题。针对这两个问题，hadoop2.x都对它进行改进和解决。其中，问题1中对namenode内存瓶颈的问题采用扩展namenode的方式来解决。对于问题2中的namenode的单点故障问题hadoop2.x采用的是HA的解决方案。apache hadoop 官方

2016-06-03 14:16:15 1199

转载数据库索引的优缺点

创建索引可以大大提高系统的性能:第一，通过创建唯一性索引，可以保证数据库表中每一行数据的唯一性。第二，可以大大加快数据的检索速度，这也是创建索引的最主要的原因。第三，可以加速表和表之间的连接，特别是在实现数据的参考完整性方面特别有意义。第四，在使用分组和排序子句进行数据检索时，同样可以显著减少查询中分组和排序的时间。第五，通过使用索引，可以在查询的过程中，使用优化隐藏

2016-05-15 21:12:21 292

转载 Hive中的NULL问题

Hive中有种假NULL，它看起来和NULL一摸一样，但是实际却不是NULL。空值NULL在底层默认是用'\N'来存储的，可以通过serialization.null.format的设置或创建表时指定结构来修改表的默认的null表示方式。具体内容请看如下例：测试表 sunwg00hive> select * from sunwg00;OKNULL

2016-05-12 22:11:13 1528

cuitaixiong的博客