云监控 Nagios 安装步骤

云监控 Nagios 安装步骤

2014-06-19 16:50:07

阅读数:886

评论数:0

搭建ganglia集群并且监视hadoop CDH4.6

前言 最近在研究云监控的相关工具,感觉ganglia颇有亮点,能从一个集群整体的角度来展现数据. 但是安装过程稍过复杂,相关依赖稍多,故写此文章与大家分享下. 本文不讲解相关原理,若想了解请参考其他资料.  本文目的: 即使之前未触过ganglia,也能按照文中步骤搭建自己的ganglia监...

2014-06-19 16:10:12

阅读数:1941

评论数:0

Hadoop RPC 框架解析

网络通信模块是分布式系统中最底层的

2014-06-15 15:48:08

阅读数:1814

评论数:0

Hadoop 多表 join:map side join 范例

在没有 pig 或者 hive 的环境下,直接在 mapreduce 中自己实现 join 是一件极其蛋疼的事情,MR中的join分为好几种,比如有最常见的 reduce side join,map side join,semi join 等。今天我们要讨论的是第 2 种:map side joi...

2014-06-12 17:57:46

阅读数:576

评论数:0

浅析 Hadoop 中的数据倾斜

最近几次被问到关于数据倾斜的问题,这里找了些资料也结合一些自己的理解.      在并行计算中我们总希望分配的每一个task 都能以差不多的粒度来切分并且完成时间相差不大,但是集群中可能硬件不同,应用的类型不同和切分的数据大小不一致总会导致有部分任务极大的拖慢了整个任务的完成时间...

2014-06-12 17:55:49

阅读数:488

评论数:0

数据倾斜总结

数据倾斜总结    在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平...

2014-06-12 17:53:20

阅读数:582

评论数:0

google全球ip地址库

当我们为不能使用google搜索业务时,这里有全球的google ip库,可以使用qizh

2014-06-11 11:54:22

阅读数:4138

评论数:0

fluentd结合kibana、elasticsearch实时搜索分析hadoop集群日志

Fluentd是一个开源收集事件和日志系统,它目前提供150+扩展插件让你存储大数据用于日志搜索,数据分析和存储。 官方地址http://fluentd.org/  插件地址http://fluentd.org/plugin/ Kibana 是一个为 ElasticSearch 提供日...

2014-06-10 18:02:57

阅读数:1560

评论数:0

开源日志系统比较:scribe、chukwa、kafka、flume

1. 背景介绍 许多公司的平台每天会产生大量的日志(一般为流式数据,如,搜索引擎的pv,查询等),处理这些日志需要特定的日志系统,一般而言,这些系统需要具有以下特征: (1) 构建应用系统和分析系统的桥梁,并将它们之间的关联解耦; (2) 支持近实时的在线分析系统和类似于Hado...

2014-06-10 15:11:05

阅读数:794

评论数:0

Hadoop MapReduce作业的生命周期

首先,我们来看如下的一张图: 作业的整个运行过程分为5个步骤: 1、作业的提交和初始化。 用户提交作业后,由JobClient实例将作业相关信息(jar包、配置文件xml、分片元信息等)上传到HDFS。 然后,JobClient通过RPC通知JobTracker。J...

2014-06-05 16:49:34

阅读数:761

评论数:0

MapReduce高级编程之自定义InputFormat

InputFormat是MapReduce中一个很常用的概念,它在程序的运行中到底起到了什么作用呢? InputFormat其实是一个接口,包含了两个方法: public interface InputFormat { InputSplit[]getSplits(JobConf jo...

2014-06-05 15:52:44

阅读数:442

评论数:0

MapReduce实现推荐系统

1.开发环境: Windows 2008 64bit Java 1.6.0_30 MyEclipse 6.5 环境部署见:http://www.linuxidc.com/Linux/2014-02/96528.htm 2.Hadoop集群环境: Oracle L...

2014-06-05 15:50:09

阅读数:687

评论数:0

Hadoop之MapReduce 分析

摘要:MapReduce是Hadoop的又一核心模块,从MapReduce是什么,MapReduce能做什么以及MapReduce的工作机制三方面认识MapReduce。 关键词:Hadoop  MapReduce    分布式处理 面对大数据,大数据的存储和处理,就好比一个人的左右手...

2014-06-05 15:46:21

阅读数:596

评论数:0

Hadoop之MapReduce框架心跳机制分析

1、概述 MapReduce框架中的master/slave心跳机制是整个集群运作的基础,是沟通TaskTracker和JobTracker的桥梁。TaskTracker周期性地调用心跳RPC函数,汇报节点和任务运行状态信息。MapReduce框架中通过心跳机制可以实现给TaskTracke...

2014-06-05 15:43:14

阅读数:877

评论数:0

实现MapReduce多文件自定义输出

http://pan.baidu.com/s/1kT0usSZ

2014-06-05 15:25:27

阅读数:570

评论数:0

org.apache.commons.lang.StringUtils类

(转)StringUtils 方法的操作对象是 java.lang.String 类型的对象,是 JDK 提供的 String 类型操作方法的补充,并且是 null 安全的(即如果输入参数 String 为 null 则不会抛出 NullPointerException ,而是做了相应处理,例...

2014-06-05 15:16:57

阅读数:546

评论数:0

Jakarta Commons

Jakarta Commons很好的东西,大家来看吧,连接时

2014-06-05 14:59:18

阅读数:512

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭