自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

快乐程序员的专栏

专注于hadoop运维,大数据处理,即席查询,hadoop生态圈组件研究

  • 博客(38)
  • 资源 (10)
  • 收藏
  • 关注

转载 Hadoop MapReduce进阶 使用分布式缓存进行replicated join

概念:reduce-side join技术是灵活的,但是有时候它仍然会变得效率极低。由于join直到reduce()阶段才会开始,我们将会在网络中传递shuffle所有数据,而在大多数情况下,我们会在join阶段丢掉大多数传递的数据。因此我们期望能够在map阶段完成整个join操作。主要技术难点:在map阶段完成join的主要困难就是mapper可能需要与一个它自己不能获得的数据进

2013-09-27 15:03:35 1132

转载 Hadoop DistributedCache

概览DistributedCache 是一个提供给Map/Reduce框架的工具,用来缓存文件(text, archives, jars and so on)文件的默认访问协议为(hdfs://). DistributedCache将拷贝缓存的文件到Slave节点在任何Job在节点上执行之前。文件在每个Job中只会被拷贝一次,缓存的归档文件会被在Slave节点中解压缩。

2013-09-27 15:00:32 1120

转载 Linux的僵尸进程及其解决方法

Linux的僵尸进程及其解决方法  1. 产生原因:  在UNIX 系统中,一个进程结束了,但是他的父进程没有等待(调用wait / waitpid)他,那么他将变成一个僵尸进程。通过ps命令查看其带有defunct的标志。僵尸进程是一个早已死亡的进程,但在进程表(processs table)中仍占了一个位置(slot)。  但是如果该

2013-09-26 15:57:07 879

转载 Hadoop的MultipleOutputFormat使用

一、背景    Hadoop的MapReduce中多文件输出默认是TextOutFormat,输出为part-r- 00000和part-r-00001依次递增的文件名。hadoop提供了MultipleOutputFormat类,重写该类可实现定制自定义的文件名。二、技术细节1.环境:hadoop 0.19(目前hadoop 0.20.2对MultipleOutp

2013-09-25 19:19:03 1033

转载 Linux System Administration

基本系统管理Linux Software RAID为何使用 Software RAID安装方案、实现和测试DNS/Bind9配置新拿到的域名为南北双线配置"变态" DNS南北双线 squid 加速MySQL Bind体系结构文件系统备份和镜像AA Center, KerberosAA 基本描述基本配置和测试pam_kerb5 login 和 ac

2013-09-22 19:08:48 13118 1

原创 Linux操作系统常用命令集结

用一个脚本来包括这些常用的linux网络操作命令。#/bin/sh#查看http请求的headertcpdump -s 1024 -l -A -n host 192.168.9.56tcpdump -s 1024 -l -A src 192.168.9.56 or dst 192.168.9.56sudo tcpdump -A -s 1492 dst port 80#本

2013-09-21 23:11:34 984

原创 Linux系统管理员应该了解的一些I/O统计工具

作为一个Linux系统管理员,统计各类IO是一项必不可少的工作。其统计工具中iostat显然又是最重要的一个统计手段。但是这里iostat不是本文的重点,因为这个工具的使用在网络上已经有大量的教程,可以供大家参考。这里主要是想介绍一些其他统计工具以来满足不同的需求。iostatiostat的功能异常强大,输出项也特别多,比如下面这个例子:Device: rrqm/s  wrqm

2013-09-21 23:09:36 1440

转载 HBase性能优化方法总结

文主要是从HBase应用程序设计与开发的角度,总结几种常用的性能优化方法。有关HBase系统配置级别的优化,这里涉及的不多,这部分可以参考:淘宝Ken Wu同学的博客。1. 表的设计1.1 Pre-Creating Regions默认情况下,在创建HBase表的时候会自动创建一个region分区,当导入数据的时候,所有的HBase客户端都向这一个region写数据,直到这个

2013-09-21 22:50:25 1134

转载 storm入门教程 第一章 前言

1.1   实时流计算互联网从诞生的第一时间起,对世界的最大的改变就是让信息能够实时交互,从而大大加速了各个环节的效率。正因为大家对信息实时响应、实时交互的需求,软件行业除了个人操作系统之外,数据库(更精确的说是关系型数据库)应该是软件行业发展最快、收益最为丰厚的产品了。记得十年前,很多银行别说实时转账,连实时查询都做不到,但是数据库和高速网络改变了这个情况。随着互联网的更进一步发

2013-09-21 22:41:31 1016

转载 Storm入门教程 第五章 一致性事务

第五章 一致性事务Storm是一个分布式的流处理系统,利用anchor和ack机制保证所有tuple都被成功处理。如果tuple出错,则可以被重传,但是如何保证出错的tuple只被处理一次呢?Storm提供了一套事务性组件Transaction Topology,用来解决这个问题。Transactional Topology目前已经不再维护,由Trident来实现事务性to

2013-09-21 22:39:46 942

转载 storm入门教程 第四章 消息的可靠处理

4.1 简介storm可以确保spout发送出来的每个消息都会被完整的处理。本章将会描述storm体系是如何达到这个目标的,并将会详述开发者应该如何使用storm的这些机制来实现数据的可靠处理。4.2 理解消息被完整处理一个消息(tuple)从spout发送出来,可能会导致成百上千的消息基于此消息被创建。我们来思考一下流式的“单词统计”的例子:sto

2013-09-21 22:38:58 988

转载 Storm入门教程 第二章 构建Topology

2.1 Storm基本概念在运行一个Storm任务之前,需要了解一些概念:TopologiesStreamsSpoutsBoltsStream groupingsReliabilityTasksWorkersConfigurationStorm集群和Hadoop集群表面上看很类似。但是Hadoop上运行的是MapReduce jobs,而在Storm上运行的是拓扑(

2013-09-21 22:38:00 1131

转载 Storm入门教程 第三章 Storm安装部署步骤

本文以Twitter Storm官方Wiki为基础,详细描述如何快速搭建一个Storm集群,其中,项目实践中遇到的问题及经验总结,在相应章节以“注意事项”的形式给出。详解了Storm安装部署步骤,希望能给您带来帮助。AD:2013云计算架构师峰会超低价抢票中本文以Twitter Storm官方Wiki为基础,详细描述如何快速搭建一个Storm集群,其中,项目

2013-09-21 22:24:45 1576

转载 Hadoop运维记录

记录一些Hive的优化点,和能够提升的效率差异。Hive是目前应用最多最广的SQL on Hadoop工具,近期很多专业的大数据公司推出了很多新的,基于列式或者内存热数据的SQL工具,像Impala,Tez,Spark等等,但是Hive仍然是目前使用率最高和普及面最广的SQL on Hadoop的工具。在以前淘宝罗李的报告中,淘宝90%的业务跑在Hive上面。暴风影音的比例更高一些,大概9

2013-09-21 21:56:44 1113

转载 云计算运维与传统运维的探讨

云计算运维与传统运维的差异性51CTO:阿里巴巴云计算运维是在什么样的背景下产生的?柯旻:由于阿里巴巴业务的发展需要,数据量飞速膨胀。云计算、分布式计算等(包括我们自主开发的飞天系统),都是在这样的背景下产生的。51CTO:云计算运维与传统运维的区别在哪里?柯旻:其实最主要区别是量的膨胀。传统的运维可能只有几十,或者上百的机器,这些机器上面有十个、二十个应用

2013-09-20 00:07:14 2071

原创 Linux关闭防火墙命令

Linux还是比较常用的,于是我研究了一下Linux关闭防火墙命令,在这里拿出来和大家分享一下,希望你能学会Linux关闭防火墙命令 。1) 永久性生效,重启后不会复原开启: chkconfig iptables on关闭: chkconfig iptables off2) 即时生效,重启后复原开启: service iptables start关闭

2013-09-19 23:58:25 991

转载 linux 系统 文件大小不一致的情况分析,文件空洞

df 显示的已使用磁盘占用率比du 统计出来的结果要大很多。原因,主要是由于两者计算结果的方式不同。 一、实验情况 1、创建并删除文件 创建文件前的磁盘容量情况: # df -h 文件系统容量已用 可用 已用% 挂载点 /dev/sda112G5.7G5.5G51% / tmpfs 506M 0506Mdf 显示的已使用磁盘占用率比du 统计出来的结果要大很多。原因,主

2013-09-18 17:12:39 3920 1

转载 Berkeley DB持久化和高速缓存

Berkeley DB之所以能实现如此高的性能,和它的持久化特点及高速缓存有莫大的关系,本文将偏向这方面进行解释,而不会或者很少提及到事务,复制等方面的问题。任何的持久化数据库系统最终的数据存储都是文件,那么BDB也是一样。一般的RMDB,都是基于C/S的模型,这意味着你永远无法接触到最底层的数据是如何持久化的。当然,你也不会需要。而BDB做为一个嵌入式数据库,它的运行模式和C/S有着本质

2013-09-17 17:36:53 3442

转载 "Berkeley DB"数据库的优点和不足之处

Sleepycat软件公司出品的Berkeley DB是一种在特定的数据管理应用程序中广泛使用的数据库系统,在世界范围内有超过两亿的用户支持.许多世界知名的厂商,像Amazon, AOL, British Telecom, Cisco Systems, EMC, Ericsson, Google, Hitachi, HP, Motorola, RSA Security, Sun Microsy

2013-09-17 17:34:39 3888

转载 文件的多进程读写

一直以为多进程读写文件是安全的,只有fflush和fclose才会真正修改文件内容,诸多开源项目的日志系统也基本都是多线程的,asterisk同样没有为ast_log建立一个专门的日志线程,而是各自调用,通过fflush直接写缓存。但是最近在8032上面发现的一个问题改变了我的看法。 问题描述:    跟踪用户设备时发现网管配置文件snmp.conf出现过几次文件内容丢失的情况

2013-09-17 16:50:10 2831

转载 Linux下实时跟踪log4j日志文件的bash脚本 - 增强了tail -f的功能

Linux下实时跟踪log4j日志文件的bash脚本 - 增强了tail -f的功能本文链接:http://codingstandards.iteye.com/blog/803686   (转载请注明出处)问题描述  在开发Java应用程序时,我们经常使用log4j作为日志输出工具,它可以根据配置文件来决定生成日志文件的策略,比如可以配置成每小时生成一个日志文件(附件压缩包

2013-09-17 14:05:34 3267

转载 Linux命令行快捷键

Ctrl + a 切换到命令行开始这个操作跟Home实现的结果一样的,但Home在某些unix环境下无法使用,便可以使用这个组合;在Linux下的vim,这个也是有效的;另外,在windows的许多文件编辑器里,这个也是有效的。Ctrl + e 切换到命令行末尾这个操作跟END实现的结果一样的,但End键在某些unix环境下无法使用,便可以使用这个组合;在Linux下的vi

2013-09-17 13:47:30 1067

原创 hadoop社区和cloudera几个版本之间的区别

一、Hadoop几种版本之间的区别:目前,hadoop社区有几个不同的分支版本,各个版本之前又相互联系。以下是几个主要版本的一些介绍。(1)、0.20.2是一个stable的版本,他有几个子版本,0.20.203 具有security特性,但是不具有append和raid功能。 0.20-append具有append功能没有security。0.20.205是0.20-append和0.2

2013-09-17 13:26:55 6851

转载 linux下logrotate 配置和理解

对于Linux 的系统安全来说,日志文件是极其重要的工具。系统管理员可以使用logrotate 程序用来管理系统中的最新的事件,对于Linux 的系统安全来说,日志文件是极其重要的工具。系统管理员可以使用logrotate 程序用来管理系统中的最新的事件。logrotate 还可以用来备份日志文件,本篇将通过以下几部分来介绍 日志文件的管理:1、logrotate 配置2、

2013-09-16 18:20:09 1101

转载 详解 Too many open files

运行在Linux系统上的Java程序可能会出现"Too many open files"的异常情况,且常见于高并发访问文件系统,多线程网络连接等场景。         程序经常访问的文件、socket在Linux中都是文件file,系统需要记录每个当前访问file的name、location、access authority等相关信息,这样的一个实体被称为file entry。“open

2013-09-15 12:44:15 8444

原创 JobTracker健康监控测试作业

为了监控集群JobTracker的健康状态,一般会定时运行一个测试作业,当然这个测试作业数据量不能太大,而且这个作业运行时间不能太长,以下就是我们用于监控集群JobTracker是否能高效提供服务的脚本,由于shell没有提供超时的机制,只能自己去实现,具体脚本如下:#!/bin/bashHADOOP_EXE="/opt/sohuhadoop/hadoop/bin"zabbix_ip="

2013-09-14 16:33:33 1327

转载 Iptables 指南 1.1.19

本文在符合 GNU Free Documentation 许可版本1.1的条件下,可以拷贝、分发、更改,但必须保留绪言 和所有的章节,如印刷成书,封面要包括“原著:Oskar Andreasson”,且书背不准有文字。本文附录有 “GNU Free Documentation License”的详细内容。文中的所有脚本均置于GNU General Public License版本2下,可以自由

2013-09-13 16:40:06 1776

转载 Single Sign On using LDAP + Kerberos

EnvironmentopenLDAP server : krb-ldap.shadow.com 192.168.122.16 Kerberos KDC  : krb-kdc1.shadow.com 192.168.122.18 Client Machine  : krb-client.shadow.com 192.168.122.20Prelimina

2013-09-12 18:17:15 2633

转载 openldap配置以及与ssh集成

1.安装rpm包:openldap,openldap-clients,openldap-servers; [root@localhost Desktop]# rpm -qa |grep openldap openldap-clients-2.4.19-15.el6.i686 openldap-devel-2.4.19-15.el6.i686 openldap-servers-2.4

2013-09-12 17:16:30 6622

转载 shell脚本超时控制

写脚本的时候,经常需要用到超时控制。看《shell专家编程》时看到一个好例:修改了一下,1.超过timeout时间还没执行完,则kill进程,发邮件告警:set -xmailSend(){ mailContent="xxxx Web response time over 5 seconds" echo $mailContent | mail -s

2013-09-10 18:24:21 9786

转载 Google Protocol Buffer简介(一)

在阅读Chromium Remoting源代码时,遇到了.proto文件。经过搜索,在Google Code上找到了对这种文件的详细说明:Protocol Buffer。这里,对这个机制做一简介。本文将以Python语言为例,介绍:.proto文件的格式使用Protocol Buffer编译器使用Python语言的Protocol Buffer API来读写消息更多

2013-09-09 18:51:09 1926

原创 在CentOS上安装Git

CentOS的yum源中没有git,只能自己编译安装,现在记录下编译安装的内容,留给自己备忘。确保已安装了依赖的包yum install curl yum install curl-devel yum install zlib-devel yum install openssl-devel yum install perl yum install cpio

2013-09-09 13:51:39 1044

转载 ProtocolBuffer和lzo技术Hadoop系统上的使用

概述基于hadoop的集群分布式数据处理目前是淘宝搜索中心最重要的数据处理平台,在集群物理条件确定的情况下,有几个方面影响了数据处理的速度。1、数据大小 (影响磁盘IO和网络IO)2、数据格式 (影响数据的解析及构造速度)3、并行度使用 protocolBuffer + lzo技术,能帮我们做到数据小解析快并行度高这三点, 能帮我们大幅度提高处理的速度。下面详细介绍

2013-09-09 12:14:49 1312

转载 Hadoop 2.0 NameNode HA和Federation实践

2013年,InfoQ将会密切关注大数据领域的最新进展,并在“大数据专栏“中向读者展示优秀的开发实践,欢迎大家向InfoQ投稿和广大的开发者分享在大数据的开发经验和心得,投稿地址:editors@cn.infoq.com。一、背景天云趋势在2012年下半年开始为某大型国有银行的历史交易数据备份及查询提供基于Hadoop的技术解决方案,由于行业的特殊性,客户对服务的可用性有着非常高的

2013-09-08 23:08:56 1471

转载 NameNode优化笔记 (一)

前段时间淘宝由于业务的数据突增, 集群规模不断扩容, 集群上运行的作业更是日益增长。由于淘宝的Hadoop数据性质与搜索公司有所不一样: 淘宝的数据一般为数十MB至数百GB不等, 而大型的搜索公司的输入数据经常为TB级别以上。所以搜索公司的Hadoop作业经常有以下特征:long term型, 可以运行数小时甚至数天作业比较大, 占用的slots数可达上万个或数十万个因为作业都

2013-09-08 23:03:48 1936

转载 GC策略笔记备忘(被namenode所迫)

转自 loli  下面是链接 http://blog.csdn.net/ae86_fc/article/details/6244164后续将转载各种hadoop 的东西  namenode是个内存消耗大户,由namenode内存过大引起的问题的严重程度和折磨人程度以及提到这个问题每人反应出来的表情, 就得看个人经历了. 对于我个人来说,提到这个问题的表情绝对是这样的

2013-09-08 22:45:02 2062

转载 CentOS 6.2及最新操作系统部署Hadoop存在的问题

最近新采购的一批机器,由于intel cpu体系架构的改变,新机器的系统需要升级,选择了CentOS 6.2系统。1  在新机器上将MR业务开启后,导致整个集群都反应很慢,运行的job几乎都被卡住;通过ganglia监控发现,机器的system cpu超过30%,机器几乎是满负载的情况。原因分析:RHEL 6.2和6.3系统中包含了一个新特性,被称为“transparent

2013-09-07 21:20:53 2315 1

原创 hadoop命令distcp注意事项

地址:http://blog.csdn.net/azhao_dn/article/details/7054286#hadoop  distcp命令用于在两个不同的集群间拷贝数据,它的优点在于将数据拷贝操作作为mapred程序来执行,这样就大大提高了拷贝的速度,使用distcp命令时必须注意以下事项:   1)数据源集群 的所有节点必须 知道目标集群所有节点ip和host的转换关系

2013-09-03 14:30:06 2068

oracle 内置sql函数

oracle 内置sql函数 ,内置函数详细说明,

2010-11-24

Oracle中ROWNUM的使用技巧

Oracle中ROWNUM的使用技巧,包括对rownum使用方法的技巧进行了详细说明,值得下载

2010-11-24

java 并发编程教程

java 并发编程 ThreadLocal 内存模型 JDK并发包编程 并发集合 显示锁 数据冲突 死锁

2010-06-17

spring aop 自定义切面示例

spring aop 自定义切面示例 aspectj 需要相应的架包支持

2010-06-17

quartz_job_scheduling_framework_中文版

quartz 中文版 api 任务调度 quartz与WEB应用

2010-03-21

非常漂亮的个人主页模板

个人主页模板 jsp php div css

2010-03-21

HTTP协议详解 学习servlet的必备资料

HTTP是一个属于应用层的面向对象的协议,由于其简捷、快速的方式,适用于分布式超媒体信息系统。它于1990年提出,经过几年的使用与发展,得到不断地完善和扩展。目前在WWW中使用的是HTTP/1.0的第六版,HTTP/1.1的规范化工作正在进行之中,而且HTTP-NG(Next Generation of HTTP)的建议已经提出。 HTTP协议的主要特点可概括如下: 1.支持客户/服务器模式。 2.简单快速:客户向服务器请求服务时,只需传送请求方法和路径。请求方法常用的有GET、HEAD、POST。每种方法规定了客户与服务器联系的类型不同。由于HTTP协议简单,使得HTTP服务器的程序规模小,因而通信速度很快。 3.灵活:HTTP允许传输任意类型的数据对象。正在传输的类型由Content-Type加以标记。 4.无连接:无连接的含义是限制每次连接只处理一个请求。服务器处理完客户的请求,并收到客户的应答后,即断开连接。采用这种方式可以节省传输时间。 5.无状态:HTTP协议是无状态协议。无状态是指协议对于事务处理没有记忆能力。缺少状态意味着如果后续处理需要前面的信息,则它必须重传,这样可能导致每次连接传送的数据量增大。另一方面,在服务器不需要先前信息时它的应答就较快。

2009-10-25

UML类图各种关系详解

UML类图各种关系详解 包括 继承 实现 聚合 等等 一张图道出类之间的各种关系 直观容易

2009-09-09

java 异常详解,java异常分类,创建自己的异常

java 异常详解,java异常分类,创建自己的异常

2009-08-18

servlet 返回 URL

Servlet 中处理 URL,获取表单内以及URL上所有的参数

2009-06-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除