2017年07月_tom_fans

原创 Storm-Kafka-Hbase 性能问题

上一篇文章介绍了一下Storm-kafka-hbase整合，虽然不能保证exactly once，但是at least once已经能够满足90%的业务，如果对前2篇内容都已经理解就已经可以为生产环境编写Storm程序了。今天谈论的问题是性能问题，开发最近写了一个程序用来处理kafka数据，然后存储到HBASE，中间的逻辑很简单，kafka的数据是一个json格式数据，通过bolt 解析这个jso

2017-07-27 18:02:08 3477 1

原创 Storm-kafka-hbase基础编程一

上一篇文章介绍了Storm如果如何保证消息传送的，通过message ID以及anchered tuple机制来跟踪消息，如果完成了，返回ack，失败了返回fail以便重发消息。但是即使如此，大家也知道不能保证exactly once, 为什么？大家去思考一下，因此本章所编写的程序是不保证exactly once 的，如果需要保证，需要使用Trident 接口，这个下次再进行介绍。S

2017-07-25 17:56:40 1199 4

原创 Strom如何保证消息发送与接收

Storm从发送消息spout 到接收消息bolt ，怎么样才认为消息已经发送成功了. Storm把spout, bolt 形成一个tree用来跟踪， spout发送消息后，会给每个message分配一个ID，这个ID是唯一的，用于跟踪消息，消息传送到bolt之后，然后处理，bolt通过ack，然后告诉spout，这条消息已经处理完成, spout然后把消息pop.，整个流程就结束了。根

2017-07-22 10:53:42 505

原创 Kafka参数影响及性能测试

Kafka提供了2个测试脚本，kafka-producer-perf-test.sh以及kafka-consumer-perf-test.sh, kafka参数非常多，有些使用默认即可，有些对性能影响极大，只有经过测试，你才能够对这些参数有直观的感觉。下面我们先测试producer.先看看producer脚本怎么使用：[hdfs@namenode02 tmp]$ /opt/cloud

2017-07-20 14:05:07 3459

原创 Kafka常用工具

1. 创建topic kafka-topics --zookeeper datanode01.isesol.com:2181,datanode01.isesol.com:2181,datanode02.isesol.com:2181,datanode03.isesol.com:2181,datanode04.isesol.com:2181 --create --partitions 2 --

2017-07-20 12:48:45 657

原创 Kafka Consumer编程一

之前提到过Consumer消费通常有2种方式，一种是获取消息然后保存offset，之后处理，这种如果出现问题，会导致at-most-once, 还有一种是获取消息，处理消息，保存offset，这种出现问题为at-least-once. 这里暂时不介绍exactly once的处理。at-most-once: 通过设置enable.auto.commit，以及auto.commit

2017-07-19 11:16:44 451

原创 Kafka基本知识二 replication和elect new leader

kafka读写都在一个leader，所有的replication同步leader的LOG，并在zookeeper里面维护in-sync状态。一个follower在in-sync列表里面有2个要求，第一和zookeeper有连接，第二必须是up-to-date，其实就是和leader的数据不能相差太远，有一个参数可以控制阀值。leader写如的数据，只要同步到了follower，并且这个foll

2017-07-16 03:51:24 466

原创 Kafka基本知识一 Producer and Consumer

由于现在版本更新较快，很多理论的东西和之前也有很多不同之处，这里描述的基本知识以最新版0.11为基准。使用消息队列我们最为关心的是消息队列如何发布消息，如何消费消息，以及消息的可靠保证，理解了这几个问题，那么对某个消息队列产品基本就了解了。从发送消息，到消费消息，一共也就2个阶段，这里我们一个一个来谈，先说一下Producer：当我们发送消息的时候如何认为就发送成功了？ Kafka默认采

2017-07-15 04:00:47 1771

原创 Kafka Producer编程一

import java.io.IOException;import java.text.MessageFormat;import java.util.*;import kafka.javaapi.producer.Producer;import kafka.producer.KeyedMessage;import scala.util.control.Exception.Catch;

2017-07-13 18:23:05 450

原创 Mapreduce编程三自定义outputformat

mapreduce默认的inputformat和outputformat分别为：FileInputFormat和FileOutputFormat，也就是从文本读，输出到文本。但是很多时候我们的源数据并非一定是文本，输出也未必一定到文件，可能我们希望进入数据库，比如 MySQL或者HBASE。HBASE因为默认官方已经有了相关的类，在我的博客另外一篇文章里做了介绍，就是2个类，比较简单，不做具体介

2017-07-06 17:18:48 2848

原创 Mapreduce编程二表关联

import java.awt.image.AreaAveragingScaleFilter;import java.io.IOException;import java.util.ArrayList;import java.util.StringTokenizer;import java.util.Vector;import org.apache.commons.ne

2017-07-05 17:26:52 305

原创 Mapreduce编程TOP N

通过treeset 取出TOP N的数据，下面的程序是有缺陷的，因为tree set本身不支持相同数据。另外使用了cleanup方法， setup 和 cleanup在mapreduce只会跑一次，从 input读取数据之后，map默认按照行来一行一行读取，也就是循环的，直到读完数据，所以一些初始化工作可以放到setup里去做， cleanup用来清理一些变量，既然执行一次，那我就通过在c

2017-07-05 17:25:17 487

原创乱七八糟弹HBASE性能

先来看看HBASE整个结构的图形：实际上说，HBASE结构真的不复杂，相比传统的RDBMS来说，应该要简单。 HBASE整个物理层存储其实最后就是HFile，读内存block cache, 写缓存memstore, write buffer，客户端也能缓存rowkey位置信息。客户端写数据先写入 memstore，默认为128M，整个默认memstore大小为

2017-07-04 16:01:41 2439

原创 CDH集成YCSB测试工具

Cloudera Lab 在2016.7已经经YCSB 0.10工具集成了，也就是我们不需要通过安装的去安装YCSB了，只需要下载parcel，然后推送至服务器即可。parcel下载地址：http://archive.cloudera.com/cloudera-labs/ycsb/parcels/latest/下载完成之后，放入自己的YUM服务器，然后通过cloudera

2017-07-04 13:42:52 1013

原创 Hbase常用参数

hbase.client.write.buffer 写入是BUFFER大小，默认2M，一般2-5M左右，插入时先插入缓存即表示完成，明显速度比不使用缓存要快hbase.master.handler.count Master RPC数量hbase.regionserver.global.memstore.upperLimit, 默认0.4表示memstore最多使用

2017-07-02 17:39:31 320

原创一次网络异常的Hadoop trouble shooting 过程

实际来说，这个案例大概是1年半之前发生的，在我上一家公司，整个集群大概60个节点，机器配置大概是128G，24vcores，1T*4硬盘。因为要迁移，也就是从一个机房迁移到另外一个机房。这里对Hadoop 迁移不做具体描述，当时发生一件事，就是我们新机房的HADOOP和老机房的不管从硬件，还是从软件基本是一样的，但是在测试阶段发现，之前正常的JOB或者说程序，在新Hadoop上有时候正

2017-07-02 17:37:35 809

原创 HBASE性能测试

之前测试过HBASE的参数对性能影响，今天的测试主要针对写吞吐量，通过对比不同客户端的数量，以及插入量，来看看HBASE写的情况下，大概有多少每秒插入。测试硬件：8vcore, 32G内存， 8台机器， 5个nodemanager/region server ，大家可能知道每个map,reduce 默认1个 vcores，1G内存很显然，我一共40个vcores，所以最多也只有39

2017-07-02 12:47:06 1738

tom_fans的博客