自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

tom_fans的博客

大数据架构运维开发

  • 博客(17)
  • 收藏
  • 关注

原创 Storm-Kafka-Hbase 性能问题

上一篇文章介绍了一下Storm-kafka-hbase整合,虽然不能保证exactly once,但是at least once已经能够满足90%的业务,如果对前2篇内容都已经理解就已经可以为生产环境编写Storm程序了。今天谈论的问题是性能问题,开发最近写了一个程序用来处理kafka数据,然后存储到HBASE,中间的逻辑很简单,kafka的数据是一个json格式数据,通过bolt 解析这个jso

2017-07-27 18:02:08 3477 1

原创 Storm-kafka-hbase基础编程一

上一篇文章介绍了Storm如果如何保证消息传送的,通过message ID以及anchered tuple机制来跟踪消息,如果完成了,返回ack,失败了返回fail以便重发消息。但是即使如此,大家也知道不能保证exactly once, 为什么? 大家去思考一下,因此本章所编写的程序是不保证exactly once 的,如果需要保证,需要使用Trident 接口,这个下次再进行介绍。S

2017-07-25 17:56:40 1199 4

原创 Strom如何保证消息发送与接收

Storm从发送消息spout 到 接收消息bolt , 怎么样才认为消息已经发送成功了. Storm把spout, bolt 形成一个tree用来跟踪, spout发送消息后,会给每个message分配一个ID,这个ID是唯一的,用于跟踪消息,消息传送到bolt之后,然后处理,bolt通过ack,然后告诉spout,这条消息已经处理完成, spout然后把消息pop., 整个流程就结束了。根

2017-07-22 10:53:42 505

原创 Kafka参数影响及性能测试

Kafka提供了2个测试脚本,kafka-producer-perf-test.sh以及kafka-consumer-perf-test.sh,  kafka参数非常多,有些使用默认即可,有些对性能影响极大,只有经过测试,你才能够对这些参数有直观的感觉。 下面我们先测试producer.先看看producer脚本怎么使用:[hdfs@namenode02 tmp]$ /opt/cloud

2017-07-20 14:05:07 3459

原创 Kafka常用工具

1. 创建topic kafka-topics --zookeeper datanode01.isesol.com:2181,datanode01.isesol.com:2181,datanode02.isesol.com:2181,datanode03.isesol.com:2181,datanode04.isesol.com:2181 --create --partitions 2 --

2017-07-20 12:48:45 657

原创 Kafka Consumer编程一

之前提到过Consumer消费通常有2种方式,一种是获取消息然后保存offset,之后处理,这种如果出现问题,会导致at-most-once, 还有一种是获取消息,处理消息,保存offset,这种出现问题为at-least-once.  这里暂时不介绍exactly once的处理。at-most-once: 通过设置enable.auto.commit,以及auto.commit

2017-07-19 11:16:44 451

原创 Kafka基本知识二 replication和elect new leader

kafka读写都在一个leader, 所有的replication同步leader的LOG,并在zookeeper里面维护in-sync状态。 一个follower在in-sync列表里面有2个要求,第一和zookeeper有连接,第二必须是up-to-date,其实就是和leader的数据不能相差太远,有一个参数可以控制阀值。leader写如的数据,只要同步到了follower,并且这个foll

2017-07-16 03:51:24 466

原创 Kafka基本知识一 Producer and Consumer

由于现在版本更新较快,很多理论的东西和之前也有很多不同之处,这里描述的基本知识以最新版0.11为基准。 使用消息队列我们最为关心的是消息队列如何发布消息,如何消费消息,以及消息的可靠保证,理解了这几个问题,那么对某个消息队列产品基本就了解了。从发送消息,到消费消息,一共也就2个阶段,这里我们一个一个来谈,先说一下Producer:当我们发送消息的时候如何认为就发送成功了? Kafka默认采

2017-07-15 04:00:47 1771

原创 Kafka Producer编程一

import java.io.IOException;import java.text.MessageFormat;import java.util.*;import kafka.javaapi.producer.Producer;import kafka.producer.KeyedMessage;import scala.util.control.Exception.Catch;

2017-07-13 18:23:05 450

原创 Mapreduce编程三 自定义outputformat

mapreduce默认的inputformat和outputformat分别为:FileInputFormat和FileOutputFormat, 也就是从文本读,输出到文本。但是很多时候我们的源数据并非一定是文本,输出也未必一定到文件,可能我们希望进入数据库,比如 MySQL或者HBASE。HBASE因为默认官方已经有了相关的类,在我的博客另外一篇文章里做了介绍,就是2个类,比较简单,不做具体介

2017-07-06 17:18:48 2848

原创 Mapreduce编程二 表关联

import java.awt.image.AreaAveragingScaleFilter;import java.io.IOException;import java.util.ArrayList;import java.util.StringTokenizer;import java.util.Vector;import org.apache.commons.ne

2017-07-05 17:26:52 305

原创 Mapreduce编程TOP N

通过treeset 取出TOP N的数据,下面的程序是有缺陷的,因为tree set本身不支持相同数据。 另外使用了cleanup方法, setup 和 cleanup在mapreduce只会跑一次, 从 input读取数据之后,map默认按照行来一行一行读取,也就是循环的,直到读完数据,所以一些初始化工作可以放到setup里去做, cleanup用来清理一些变量,既然执行一次,那我就通过在c

2017-07-05 17:25:17 487

原创 乱七八糟弹HBASE性能

先来看看HBASE整个结构的图形:实际上说,HBASE结构真的不复杂,相比传统的RDBMS来说,应该要简单。 HBASE整个物理层存储其实最后就是HFile,读内存block cache, 写缓存memstore,  write buffer,客户端也能缓存rowkey位置信息。客户端写数据先写入  memstore,默认为128M, 整个默认memstore大小为

2017-07-04 16:01:41 2439

原创 CDH集成YCSB测试工具

Cloudera Lab 在2016.7已经经YCSB 0.10工具集成了,也就是我们不需要通过安装的去安装YCSB了,只需要下载parcel,然后推送至服务器即可。parcel下载地址:http://archive.cloudera.com/cloudera-labs/ycsb/parcels/latest/下载完成之后,放入自己的YUM服务器,然后通过cloudera

2017-07-04 13:42:52 1013

原创 Hbase常用参数

hbase.client.write.buffer          写入是BUFFER大小,默认2M,一般2-5M左右,插入时先插入缓存即表示完成,明显速度比不使用缓存要快hbase.master.handler.count    Master RPC数量hbase.regionserver.global.memstore.upperLimit,  默认0.4表示memstore最多使用

2017-07-02 17:39:31 320

原创 一次网络异常的Hadoop trouble shooting 过程

实际来说,这个案例大概是1年半之前发生的,在我上一家公司,整个集群大概60个节点, 机器配置大概是128G,24vcores,1T*4硬盘。 因为要迁移,也就是从一个机房迁移到另外一个机房。这里对Hadoop 迁移不做具体描述,当时发生一件事,就是我们新机房的HADOOP和老机房的不管从硬件,还是从软件基本是一样的,但是在测试阶段发现,之前正常的JOB或者说程序,在新Hadoop上有时候正

2017-07-02 17:37:35 809

原创 HBASE性能测试

之前测试过HBASE的参数对性能影响,今天的测试主要针对写吞吐量,通过对比不同客户端的数量,以及插入量,来看看HBASE写的情况下,大概有多少每秒插入。测试硬件:8vcore, 32G内存 , 8台机器, 5个nodemanager/region server  ,大家可能知道每个map,reduce 默认1个 vcores,1G内存 很显然,我一共40个vcores, 所以最多也只有39

2017-07-02 12:47:06 1738

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除