fengwuwer-CSDN博客

转载 hadoop webhdfs rest api

1 介绍 Hadoop提供了一个Java native API来支持对文件系统进行创建，重命名，删除文件或者目录，打开读取或者写文件，设置文件权限等操作。这对于运行在hadoop集群中的应用程序来说是挺棒的，但是，也有许多外部的应用程序需要操作HDFS的情况，怎么办？如果解决这种问题呢？Hortonworks 开发了一些额外的API来支持这些基于标准REST功能的需求。2 Web

2016-11-03 17:47:12 1977

转载 sparksql 解析

1.整体运行流程使用下列代码对SparkSQL流程进行分析，让大家明白LogicalPlan的几种状态，理解SparkSQL整体执行流程// sc is an existing SparkContext.val sqlContext = new org.apache.spark.sql.SQLContext(sc)// this is used to implicitly conver

2016-11-03 15:40:51 393

转载 spark_sql & hive_sql

SparkSQL相关语句总结1.in 不支持子查询 eg. select * from src where key in(select key from test);支持查询个数 eg. select * from src where key in(1,2,3,4,5);in 40000个耗时25.766秒in 80000个耗时78.827秒2.union all/

2016-10-31 09:52:54 632

转载 metrics

对于分布式软件系统来说Metrics已经成为了不可缺少的组成部分，通过它我们可以了解系统的运行状况、健康状况、性能状况，通过对历史数据的分析，也可以帮助我们发现系统缺陷以及避免系统不稳定的发生。比如通过JVM数据我们可以优化系统GC策略，通过TPS和latency数据可以获知系统的压力和性能表现。Hadoop作为目前流行的分布式计算系统，提供了一套简单有效的metrics框架。接下来通过对

2016-10-28 16:00:15 3721

转载 ganglia 配置文件

配置/etc/gmond.conf，配置相同如下所示：globals { daemonize = yes #以后台的方式运行 setuid = yes user = ganglia #运行gmond的用户 debug_level = 0 #调试级别

2016-10-28 15:56:14 528

转载 ganglia安装

ganglia安装 Ganglia 是 UC Berkeley 发起的一个开源监视项目，设计用于测量数以千计的节点。每台计算机都运行一个收集和发送度量数据（如处理器速度、内存使用量等）的名为 gmond 的守护进程。它将从操作系统和指定主机中收集。接收所有度量数据的主机可以显示这些数据并且可以将这些数据的精简表单传递到层次结构中。正因为有这种层次结构模式，才使得 Ganglia

2016-10-28 15:49:35 304

转载 nagios安装详解

一、Nagios简介　　Nagios是一款开源的电脑系统和网络监视工具，能有效监控Windows、Linux和Unix的主机状态，交换机路由器等网络设置，打印机等。在系统或服务状态异常时发出邮件或短信报警第一时间通知网站运维人员，在状态恢复后发出正常的邮件或短信通知。　　Nagios原名为NetSaint，由Ethan Galstad开发并维护至今。NAGIOS是一个缩写形式: "Na

2016-10-28 15:44:04 400

转载 nagios+ganglia监控Hadoop集群

nagios+ganglia监控与Cacti、Nagios、Zabbix等工具相比，Ganglia更关注整个集群的性能和可用性。可以用于集群的性能监控、分析和优化。 Ganglia就是这样一种工具。Ganglia 是 UC Berkeley 发起的一个开源监视项目，设计用于测量数以千计的节点。Ganglia主要监控集群的性能指标，如cpu 、mem、硬盘

2016-10-28 15:25:15 2298

转载 YARN Timeline Server介绍

1.背景介绍：在hadoop2.4版本之前对任务执行的监控只开发了针对MR的Job HistoryServer，它可以提供给用户用户查询已经运行完成的作业的信息，但是后来，随着在YARN上面集成的越来越多的计算框架，比如spark、Tez，也有必要为基于这些计算引擎的技术开发相应的作业任务监控工具，所以hadoop的开发人员就考虑开发一款更加通用的Job History Server，

2016-10-28 15:21:47 11880

转载 Log4J配置及参数详解

Log4J的配置文件(Configuration File)就是用来设置记录器的级别、存放器和布局的，它可接key=value格式的设置或xml格式的设置信息。通过配置，可以创建出Log4J的运行环境。1. 配置文件Log4J配置文件的基本格式如下： #配置根Loggerlog4j.rootLogger = [ level ] , appenderN

2016-10-28 15:15:02 551

转载 JVM调优总结 -Xms -Xmx -Xmn -Xss

JVM调优总结 -Xms -Xmx -Xmn -Xss堆大小设置JVM 中最大堆大小有三方面限制：相关操作系统的数据模型（32-bt还是64-bit）限制；系统的可用虚拟内存限制；系统的可用物理内存限制。32位系统下，一般限制在1.5G~2G；64为操作系统对内存无限制。我在Windows Server 2003 系统，3.5G物理内存，JDK5.0下测试，最大可设置为1478

2016-10-28 15:10:58 213

说到对Hadoop和HBase的集群监控，大家知道的和用的最多的可能还是第三方的监控工具，cacti，ganglia，zabbix之类的。玩的深一些的，会用zenoss之类的。这些工具确实不错，也能发挥很大的作用，但时间长了总感觉监控粒度还是比较粗，不够详细。毕竟是第三方的监控，即便Hadoop自带了ganglia的接口，也还是觉得不够。其实Hadoop本身是带有监控接口的，各公司的发行版还有自己

2016-10-28 14:58:44 4280

转载 Hadoop 中web服务的REST API介绍

Hadoop YARN中web服务的REST API介绍　　Hadoop YARN自带了一系列的web service REST API，我们可以通过这些web service访问集群(cluster)、节点(nodes)、应用(application)以及应用的历史信息。根据API返回的类型，这些URL源归会类到不同的组。一些API返回collector类型的，有些返回singlet

2016-10-28 10:51:48 2253

转载 Hadoop, HBase, Hive, ZooKeeper默认端口说明

Hadoop, HBase, Hive, ZooKeeper默认端口说明组件Daemon端口配置说明HDFSDataNode50010dfs.datanode.addressdatanode服务端口，用于数据传输 50075dfs.datanode.http.addresshttp服务的端口

2016-10-28 10:23:30 5843 1

fengwuwer的博客