铁猴-CSDN博客

转载分布式发布订阅消息系统 Kafka 架构设计 - 目前见到的最好的Kafka中文文章

转自：http://www.oschina.net/translate/kafka-design参与翻译(4人)：fbm, 飞翔的猴子, Khiyuan, nesteaa感谢这些同志们的辛勤工作，翻译的真不错，目前见到的最好的Kafka中文文章-------------------------------我们为什么要搭建该系统Kafka是

2015-05-09 14:16:06 1461

原创 Docker 使用方法总结之：镜像

查找命令：docker search [OPTIONS] TERM相关参数：Search the Docker Hub for images --automated=false Only show automated builds --no-trunc=false Don't truncate output -s, --stars=0 On

2015-05-02 21:00:33 7859

原创 Centos 下Hbase0.98.10-hadoop2 单机模式的安装

下载，解压缩包http://www.apache.org/dyn/closer.cgi/hbase/修改HBase配置文件1、 hbase-env.sh取消配置JDK的注释并做并如下修改（我的JDK安装路径）：export JAVA_HOME=/usr/java/jdk1.6.0_27/2、 hbase-site.xml因为是单机启动，所以只设定了HBase写入的本

2015-04-16 19:47:55 1132

原创通过TelnetClient获取Zookeeper监控数据

如果想编写一个监控Zookeeper的Java程序，可以通过两种方式 :（1）通过TelnetClient发送命令 ,命令的详解参考：http://zookeeper.apache.org/doc/trunk/zookeeperAdmin.html#sc_zkCommands（2）通过JMX，说明请参考：http://zookeeper.apache.org/doc/trunk/zooke

2015-04-10 16:08:15 3315 3

原创使用JMX监控Kafka

Kafka可以配置使用JMX进行运行状态的监控，既可以通过JDK自带Jconsole来观察结果，也可以通过Java API的方式来.关于监控指标的描述，可以参考：http://kafka.apache.org/documentation.html#monitoring开启JMX端口修改bin/kafka-server-start.sh，添加JMX_PORT参数，添加后样

2015-04-10 15:43:31 21311 11

原创通过 JMX 获取Hadoop/HBase监控数据

概述说到对Hadoop和 HBase的集群监控，大家知道的和用的最多的可能还是第三方的监控工具，cacti，ganglia，zabbix之类的。玩的深一些的，会用 zenoss之类的。这些工具确实不错，也能发挥很大的作用，但时间长了总感觉监控粒度还是比较粗，不够详细。毕竟是第三方的监控，即便Hadoop自带了ganglia的接口，也还是觉得不够。其实Hadoop本身是带有监控接口的，

2015-04-09 22:05:52 12363 1

原创 Centos 6.5 下Cloudera Manager5.3.2的安装

宿主机硬件配置运行环境软硬件环境l 主机操作系统：Windows 64 bit，双核4线程，主频2.2G，8G内存l 虚拟软件：VMware®Workstation 9.0.0 build-812388l 虚拟机操作系统：CentOs 64bit，单核，2G内存虚拟机软硬件配置集群网络环境集群包含三个节点：节点之间局域网连接，可以相互ping通。节点IP地址和主机名分

2015-03-30 22:08:03 1452

原创使用Python开发Kafka消息生产者

安装Kafka-Python下载Kafka-Python压缩包从https://github.com/mumrah/kafka-python/releases中下载最新的release包,此时最新的包为kafka-python-0.9.3.tar.gz 编译安装$tar -xvf kafka-python-0.9.3.tar.gz$cd kafk

2015-03-25 17:46:42 19490 2

原创 Centos 6.5 下hadoop2.5.2的HA集群原理讲解以及详细配置（自动切换）

简介在Centos 6.5 下hadoop2.5.2的HA集群原理讲解以及详细配置（手动切换）一文中讲述了如何搭建一个通过手工方式实现namenode HA机制，本文描述如同通过Zookeeper来实现自动的HA.基本原理以及部分参数的讲解可参考手动切换的章节硬件环境HOSTNAMEIPHadoop

2015-03-25 13:13:52 2540 4

原创 Apache Phoenix JDBC 驱动和Spring JDBCTemplate的集成

介绍：Phoenix查询引擎会将SQL查询转换为一个或多个HBase scan，并编排执行以生成标准的JDBC结果集。直接使用HBase API、协同处理器与自定义过滤器，对于简单查询来说，其性能量级是毫秒，对于百万级别的行数来说，其性能量级是秒。更多参考官网：http://phoenix.apache.org/Phoenix实现了JDBC的驱动，使用Phoenix JDBC和普通的数据库

2015-03-20 16:54:12 13575

原创 CentOS SSH无密码登录原理，配置以及常见问题

原理简介为了便于理解，假设需要在hadoop148这台机器上可以通过无密码登录的方式连接到hadoop107上。首先在 hadoop148上生成一个密钥对，包括一个公钥和一个私钥，并将公钥复制到hadoop107上。然后当 hadoop148通过 SSH 连接hadoop107机器时， hadoop107机器就会生成一个随机数并用 hadoop148的公钥对随机数

2015-03-19 09:35:04 2608

原创 Kafka知识点汇总

Kafka相关的文章比较多，且比较杂乱，如果都看完可能需要比较多的时间，本文对相关的关键知识点做一个总结，便于查阅

2015-03-13 16:55:01 4337

翻译设计Kafka的High Level Consumer

原文：https://cwiki.apache.org/confluence/display/KAFKA/Consumer+Group+Example为什么使用High Level Consumer在某些应用场景，我们希望通过多线程读取消息，而我们并不关心从Kafka消费消息的顺序，我们仅仅关心数据能被消费就行。High Level 就是用于抽象这类消费动作的。消息消费已C

2015-03-13 16:35:52 3211

转载 kafka manager安装

转载自：http://hengyunabc.github.io/kafka-manager-install/项目信息https://github.com/yahoo/kafka-manager这个项目比 https://github.com/claudemamo/kafka-web-console 要好用一些，显示的信息更加丰富，kafka-manager本身可以是一个集群。不

2015-03-12 13:42:00 1416

原创 Kafka学习之：Centos 下Kafka集群的安装

kafka是LinkedIn开发并开源的一个分布式MQ系统，现在是Apache的一个孵化项目。在它的主页描述kafka为一个高吞吐量的分布式（能将消息分散到不同的节点上）MQ。在这片博文中，作者简单提到了开发kafka而不选择已有MQ系统的原因。两个原因：性能和扩展性。Kafka仅仅由7000行Scala编写，据了解，Kafka每秒可以生产约25万消息（50 MB），每秒处理55万消息（110

2015-03-11 17:44:44 4716

转载 Kafka学习之：Kafka背景及架构介绍

转载自：http://www.infoq.com/cn/articles/kafka-analysis-part-1Kafka是由LinkedIn开发的一个分布式的消息系统，使用Scala编写，它以可水平扩展和高吞吐率而被广泛使用。目前越来越多的开源分布式处理系统如Cloudera、Apache Storm、Spark都支持与Kafka集成。InfoQ一直在紧密关注Kafka的

2015-03-11 17:31:47 3528 1

原创 Phoenix 4.3.0 与 Hbase0.98.10-hadoop2的整合

介绍：Phoenix查询引擎会将SQL查询转换为一个或多个HBase scan，并编排执行以生成标准的JDBC结果集。直接使用HBase API、协同处理器与自定义过滤器，对于简单查询来说，其性能量级是毫秒，对于百万级别的行数来说，其性能量级是秒。更多参考官网：http://phoenix.apache.org/本文主要详细介绍Phoenix 4.3.0 与 Hbase0.98.10-ha

2015-03-10 12:57:33 4486

原创 TCollect与OpenTSDB的集成

TCollect可以理解为OpenTSDB的数据采集前端，Tcollect负责采集监控数据，并发送到后端的OpenTSDB进行存储。运行说明：在进行TCollect的安装前先要确保OpenTSDB的正确安装，安装过程请参考：opentsdb-2.0.1 RPM包的安装以及测试下载tcollectorgit clone git://github.com/OpenT

2015-03-04 14:24:40 3294

原创 opentsdb-2.0.1 RPM包的安装以及测试

介绍开源监控系统OpenTSDB，用hbase存储所有的时序（无须采样）来构建一个分布式、可伸缩的时间序列数据库。它支持秒级数据采集所有metrics，支持永久存储，可以做容量规划，并很容易的接入到现有的报警系统里。OpenTSDB可以从大规模的集群（包括集群中的网络设备、操作系统、应用程序）中获取相应的metrics并进行存储、索引以及服务，从而使得这些数据更容易让人理解，如web

2015-03-03 17:37:27 3647 1

原创 Windows7+Eclipse环境下Hbase Java客户端的开发

本文展示如何在Windows的环境下通过Eclipse构建Hbase的客户端开发构建Hbase集群，请参考：Centos 下Hbase0.98.10-hadoop2 集群的配置在Eclipse中创建Maven的工程将集群的hbase-site.xml文件放到工程的classes目录下配置操作系统的C:\windows\system32\drivers\etc文件，将Hbas

2015-03-02 09:30:40 2336 2

原创 Centos 下Hbase0.98.10-hadoop2 集群的配置

环境操作系统 Centos 6.5 64-bitHadoop:hadoop-2.5.2HBase:hbase-0.98.10-hadoop2Zookeeper:zookeeper-3.4.6物理机器 ip 主机名 192.168.40.107 hadoop107192.168.40.108 hadoop108

2015-02-27 23:16:21 2346

原创在CentOS上安装ZooKeeper集群

创建用户一般我倾向于把需要启动daemon进程，对外提供服务的程序，即服务器类的程序，安装在单独的用户下面。这样可以做到隔离，运维方面，安全性也提高了。创建一个新的group,$ sudo groupadd zookeeper创建一个新的用户，并加入group,$ sudo useradd -g zookeeper zookeeper给新用户设置密码，$ sudo

2015-02-27 16:54:01 3868

原创 Centos 6.5 下hadoop2.5.2的HA集群原理讲解以及详细配置（手动切换）

简介hadoop中的NameNode好比是人的心脏，非常重要，绝对不可以停止工作。在hadoop1时代，只有一个NameNode。如果该NameNode数据丢失或者不能工作，那么整个集群就不能恢复了。这是hadoop1中的单点问题，也是hadoop1不可靠的表现，如图1所示。hadoop2就解决了这个问题。图1hadoop-2.5.2中HDFS的高可靠指的是可以同时启动2个Na

2015-02-27 13:20:36 2867

转载 RAID各级分类的区别

什么是RAIDRAID是Redundant Array of Inexpensive Disk的缩写，意为廉价冗余磁盘阵列，是磁盘阵列在技术上实现的理论标准，其目的在于减少错误、提高存储系统的性能与可靠度。常用的等级有0、1、3、5、10级等。 RAID 分类通常我们有5种常见的RAID级别，这些级别不是刻意分出来的，而是按功能分的。不同的RAID级别提供不同的性能，数据的有效性

2015-02-13 11:23:56 2700

转载 Hbase入门之:原理、基本概念与架构

概述HBase是一个构建在HDFS上的分布式列存储系统；HBase是基于Google BigTable模型开发的，典型的key/value系统；HBase是Apache Hadoop生态系统中的重要一员，主要用于海量结构化数据存储；从逻辑上讲，HBase将数据按照表、行和列进行存储。与hadoop一样，Hbase目标主要依靠横向扩展，通过不断增加廉价的商用服务器，来

2015-02-13 11:13:35 1133

原创 Git 简洁教程之高级操作

git 合并冲突的解决在分支QA上面修改readme.txt文件，并进行提交在分支DEV上面修改readme.txt文件，并进行提交切换到Master分支，并把QA的修改合并过来，此时可以顺利的进行合并此时尝试在Master上合并DEV的内容时，会提交失败，并提示有冲突打开readme.txt文件，手动清楚差异对readme.txt执行add以及commit操作使用

2015-01-20 17:40:46 1362

原创 Git 简洁教程之中级操作

远程仓库的SSH本地Git仓库和GitHub仓库之间的传输是通过SSH加密,为了使用SSH加密，需要在本地生成Private Key 以及Public key,其中public key要保存到GitHub的网站上，这样GitHub就可以知道提交代码的是你，而不是别人。下面为具体的步骤第1步：创建SSH Key。在用户主目录下，看看有没有.ssh目录，如果有，再看看这个目录下有没有i

2015-01-20 17:26:59 1192

原创 Git 简洁教程之:基本操作

初始化并提交文件创建初始化目录 mkdir learngit初始化仓库git init在learngit下创建文件，并提交到本地仓库git add readme.txtgit commit -m "wrote a readme file"也可以通过*的方式一次性添加过个文件，下面的截图一次性添加了两个以readme开头的txt文件文件

2015-01-11 23:06:37 1201

原创 Hadoop 中SequenceFile的简介

概念SequenceFile是一个由二进制序列化过的key/value的字节流组成的文本存储文件，它可以在map/reduce过程中的input/output 的format时被使用。在map/reduce过程中，map处理文件的临时输出就是使用SequenceFile处理过的。所以一般的SequenceFile均是在FileSystem中生成，供map调用的原始文件。

2014-12-10 22:33:09 10897

转载几种序列化之间的比较Thrift&protocolbuffer&avro

thrift和avro都提供rpc服务和序列化，而protocolbuffer只是提供序列化功能Avro是强调一种高效的序列化，标准性的云计算的数据交换和存储的ProtocolAvro的创新之处在于融合了显式,declarative的Schema和高效二进制的数据表达，强调数据的自我描述，克服了以往单纯XML或二进制系统的缺陷。Avro对Schema动态加载功能，是Thrift编程接口所不

2014-12-05 15:37:07 1377

转载 Git简单入门教程

转载自：http://www.bootcss.com/p/git-guide/安装下载 git OSX 版下载 git Windows 版下载 git Linux 版创建新仓库创建新文件夹，打开，然后执行 git init以创建新的 git 仓库。检出仓库执行如下命令以创建一个本地仓库的克隆版本：

2014-12-02 10:28:26 974

原创 Openstack存储总结之：使用Ceph集群作为后端统一存储

前提条件一个可以正常运行的Ceph集群，该集群采用ceph-deploy创建，dataprovider为管理节点，包括三个MON,四个MON以及Openstack集群，其中Openstack集群假设Cinder,Glance都是安装在叫做controllernode的节点上，computernode,networknode分别为计算以及网络节点创建Pool在

2014-12-01 16:44:46 3572

转载通过漫画轻松掌握HDFS工作原理

2014-11-27 15:34:13 3774

转载 Hadoop 中MapReduce的数据流

Hadoop的核心组件在一起工作时如下图所示：图4.4高层MapReduce工作流水线 MapReduce的输入一般来自HDFS中的文件，这些文件分布存储在集群内的节点上。运行一个MapReduce程序会在集群的许多节点甚至所有节点上运行mapping任务，每一个mapping任务都是平等的：mappers没有特定“标识物”与其关联。因此，任意的mapper都可以处理任意

2014-11-27 14:51:18 2193

原创在CentOS 运行你的第一个MapReduce程序

在进行本文的操作之前要先搭建一个Hadoop的环境，为了便于实验，可采用单节点部署的方式，具体方法可参见：Centos 6.5 下Hadoop 1.2.1单节点环境的创建编写源码主要为创建一个解析气象数据的程序，可以从数据文件中选择气温最高的一年，采用Maven进行编译。下面只包含Maper,Reduce,以及Main函数的代码。完整项目代码请参见https://g

2014-11-26 14:14:20 2534

原创 Centos 6.5 下Hadoop 1.2.1单节点环境的创建

安装以及配置JavaJDK安装#chmod 777 jre-6u31-linux-x64-rpm.bin#./jre-6u31-linux-x64-rpm.bin添加java环境变量#vim /etc/profile#最后添加# set java environmentexport JA

2014-11-25 16:36:29 1619

原创 Ceph实践总结之：CephFS客户端的配置

由于CephFS目前不算很稳定，可能更多的还是用在实验中。在进行本章的操作之前，要先完成基本集群的搭建，请参考http://blog.csdn.net/eric_sunah/article/details/40862215文件系统挂载的操作可以再虚拟机上进行，也可以在独立的物理机上执行，请不要在ceph集群中的机器上进行下面的操作前期准备¶通过 OS Recomme

2014-11-20 15:59:50 4988

原创 Ceph实践总结之：Centos 下RBD块设备客户端的配置

在进行本章的操作之前，要先完成基本集群的搭建，请参考http://blog.csdn.net/eric_sunah/article/details/40862215Ceph的块设备又称为 RBD 或是RADOS. 块设备实验的过程中，可以用虚拟机来作为ceph-client的节点，但是为了保证集群的稳定，不要在集群的节点上做下面的操作安装Ceph

2014-11-20 15:08:54 9831

转载将centos 6.5 升级内核 linux 3.12.17

环境：　　系统硬件：vmware vsphere (CPU：2*4核，内存2G)　　系统版本：Linux centos 2.6.32-431.el6.x86_64（Centos-6.5-x86_64-minimal.iso ）　　升级内核版本：longterm:3.12.17 升级步骤：　　1.虚拟系统安装　　要求mininal方式安装(205个包),具体步骤省略。

2014-11-19 15:13:56 3986