自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(56)
  • 资源 (1)
  • 问答 (2)
  • 收藏
  • 关注

原创 HBase in 2013

原文:http://yanbohappy.sinaapp.com/?p=434 2013年马上就要过去了,总结下这一年HBase在这么一年中发生的主要变化。影响最大的事件就是HBase 0.96的发布,代码结构已经按照模块化release了,而且提供了许多大家迫切需求的特点。这些特点大多在Yahoo/Facebook/淘宝/小米等公司内部的集群中跑了挺长时间了,可以算是比较稳定可用了。...

2013-12-31 20:50:02 183

原创 hadoop文档集合

架构概述hadoop Important Concepts 工作总结hadoop使用中的几个小细节(一) 功能介绍Hadoop的原生比较器RawComparatorHadoop在MapReduce中使用压缩详解HDFS之SequenceFile和MapFile  ...

2013-12-28 19:31:20 128

原创 hbase文档集合

问题总结一次奇异的getRegionInfo异常定位两次hbase丢失数据的故障及原因分析hbase中regionserver常见的oom原因分析hbase写被block住的典型案例分析HBase性能优化总结:http://www.cnblogs.com/panfeng412/archive/2012/03/08/hbase-performance-tuning-sectio...

2013-12-28 18:44:30 144

原创 hbase上应用lucene创建索引及检索

    hbasene(https://github.com/akkumar/hbasene)是开源项目,在hbase存储上封装使用Lucene来创建索引,代码API非常简单,熟悉lucene的朋友可以很方便地创建。     以下为测试代码,完成读取一张hbase上记录url和用户id的表,对其创建索引并进行简单的基于url的索引的代码。当取到search的结果后,就可以拿到想要的数据了。由于分...

2013-12-28 18:23:13 206

原创 hbase Region Server定位

参考:http://iwinit.iteye.com/blog/1811265  HBase的table是该region切分的,client操作一个row的时候,如何知道这个row对应的region是在哪台Region server上呢?这里有个region location过程。主要涉及到2张系统表,-ROOT-,.META.。其结构见图 在zookeeper的/hbase...

2013-12-28 17:32:57 213

原创 Linux 2.6.36内核优化指南

作者:Ken WuEmail: ken.wug@gmail.com转载本文档请注明原文链接 http://kenwublog.com/docs/linux-kernel-2-6-36-optimization.htm! 介绍本文档是一篇关于Linux Kernel 2.6.36的最简优化指南。作者旨在编译一份性能最佳且适合程序开发用的内核(带gnome图形界面)。本文提及的内...

2013-12-26 16:03:34 337

原创 HBase在淘宝主搜索的Dump中的性能调优

目前HBase已经运用于淘宝主搜索的全量和增量的数据存储,有效的减低的数据库的压力,增强了业务扩展的能力。Dump系统的特点是要求在短时间内处理大量数据,对延时要求高。在实施这个项目过程中,我们积累了一些优化的实践,抛砖引玉,供大家参考。环境:Hadoop CDH3U4 + HBase 0.92.11、  尽可能用LZO数据使用LZO,不仅可以节省存储空间尤其是可以提高传输的效率,因...

2013-12-26 16:01:11 100

原创 HBase二级索引与Join

二级索引与索引Join是Online业务系统要求存储引擎提供的基本特性。RDBMS支持得比较好,NOSQL阵营也在摸索着符合自身特点的最佳解决方案。这篇文章会以HBase做为对象来探讨如何基于Hbase构建二级索引与实现索引join。文末同时会列出目前已知的包括0.19.3版secondary index,?ITHbase, Facebook和官方Coprocessor方案的介绍。理论目标在...

2013-12-26 15:59:41 132

原创 HBase的rowkey设计

访问hbase table中的行,只有三种方式:1 通过单个row key访问2 通过row key的range3 全表扫描Hadoop Sequence File Author:Pirate LeomyBlog: http://blog.csdn.net/pirateleo/myEmail: codeevoship@gmail.com转载请注明出处,谢谢。...

2013-12-26 15:45:01 128

原创 分布式系统概述(Hadoop与HBase的前生今世)

古代,人们用牛来拉重物。当一头牛拉不动一根圆木时,他们不曾想过培育更大更壮的牛。同样:我们也不需要尝试开发超级计算机,而应试着结合使用更多计算机系统。—— Grace Hopper(计算机软件第一夫人,计算机历史上第一个BUG的发现者,也是史上最大BUG千年虫的制造者)这就是分布式。  再来看一组令人瞠目结舌的数据:2012年11月11日支付宝总交易额191亿元,...

2013-12-26 15:37:37 165

原创 Hbase,Zookeeper性能优化之-参数设置

zookeeper.session.timeout默认值:3分钟(180000ms)说明:RegionServer与Zookeeper间的连接超时时间。当超时时间到后,ReigonServer会被Zookeeper从RS集群清单中移除,HMaster收到移除通知后,会对这台server负责的regions重新balance,让其他存活的RegionServer接管.调优:这个timeout决...

2013-12-25 20:18:35 362

原创 hbase查询超时导致的错误

今天上线跑一个hbase程序出现如下错误:org.apache.hadoop.hbase.regionserver.LeaseException: org.apache.hadoop.hbase.regionserver.LeaseException: lease '5008606692699215376' does not exist 问题解决HBase 客户端调用建立在由S...

2013-12-25 19:53:13 777

原创 hbase实现count功能

代码如下: Scan scan = new Scan(); scan.addFamily(Bytes.toBytes("cf")); scan.setCaching(500); AggregationClient ac = new AggregationClient(config); long rowCount = ac.rowCount(Bytes.toBytes...

2013-12-25 15:42:06 966

原创 hbase mapreduce例子

参考:http://hbase.apache.org/book/mapreduce.htmlhttp://genius-bai.iteye.com/blog/641927   HBase 自带例子hbase-0.20.3\src\test计算表的总行数(org.apache.hadoop.hbase.mapreduce.RowCounter)bin/hadoo...

2013-12-25 15:40:41 131

原创 hbase client无法连接到本地hbase server

今天下午浪费了不少时间在搞本地hbase server测试,测试代码如下:import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop.hbase....

2013-12-25 00:51:02 466 1

原创 hbase无法启动问题

今天遇到hbase无法启动,找了很久,才发现可能是data目录的文件丢失导致的,重新清空了/duitang/data/hbase, /tmp/habse /duitang/data/hbase_zookepper三个目录之后重启,问题解决,错误如下: 总之hbase之需要配置conf/hbase-site.xml<configuration> <proper...

2013-12-24 23:53:21 1110

原创 hadoop深入学习之SequenceFile

1.Hadoop’s SequenceFileSequenceFile 是 Hadoop 的一个重要数据文件类型,它提供key-value的存储,但与传统key-value存储(比如hash表,btree)不同的是,它是 appendonly的,于是你不能对已存在的key进行写操作。每一个key-value记录如下图,不仅保存了key,value值,也保存了他们的 长度。 Seque...

2013-12-24 21:51:26 146

原创 HBase实战之利用Coprocessor实现聚合函数

关键词LongColumnInterpreter参考:http://zhang-xzhi-xjtu.iteye.com/blog/1926732 HBase实战之CoprocessorProtocol及一个简单的通用扩展实现http://zhang-xzhi-xjtu.iteye.com/blog/1926732...

2013-12-24 21:14:44 524

原创 HBase性能优化2—使用Coprocessor进行RowCount统计

http://www.binospace.com/index.php/make-your-hbase-better-2/关键词:AggregationClient 对于Table内RowKey个数的统计,一直是HBase系统面临的一项重要工作,目前有两种执行该操作的方式。1)使用MapReduce进行。可以借助HTableInputFormat实现对于Rowkey的划分,但是需要...

2013-12-24 10:23:20 584

原创 HBase之Java API

参考 http://blog.csdn.net/javaman_chen/article/details/7220216 1.Configuration 在使用Java API时,Client端需要知道HBase的配置环境,如存储地址,zookeeper等信息。这些信息通过Configuration对象来封装,可通过如下代码构建该对象        Configuration...

2013-12-24 10:10:36 88

原创 hadoop hdfs环境搭建

参考:http://wiki.apache.org/hadoop/GettingStartedWithHadoophttp://blog.csdn.net/warmspace2008/article/details/8540159 hadoop环境搭建参考官方wiki,首先下载hadoop官方包,我选择的是hadoop-1.2.1。conf目录新增配置文件:<?xml...

2013-12-23 16:41:57 174

原创 mahout in action中文翻译

参考: http://running.iteye.com/category/144665

2013-12-23 15:09:07 115

原创 使用RawComparator加速Hadoop程序

 http://yoyzhou.github.io/blog/2013/05/13/hadoop-write-ur-own-rawcomparator/  static class MyComparator extends WritableComparator { static { WritableComparator.define(MyWritable.class, ...

2013-12-23 14:53:49 199

原创 Hadoop序列化与Writable接口介绍

Hadoop序列化与Writable接口介绍http://yoyzhou.github.io/blog/2013/05/09/hadoop-serialization-and-writable-object-1/http://yoyzhou.github.io/blog/2013/05/10/hadoop-serialization-and-writable-object-2/ ...

2013-12-23 14:32:24 191

原创 Mahout与聚类分析

让Mahout KMeans聚类分析运行在Hadoop上Mahout与聚类分析:http://yoyzhou.github.io/blog/2013/05/26/clustering-with-mahout/http://yoyzhou.github.io/blog/2013/06/04/mahout-clustering-with-hadoop/...

2013-12-23 14:19:35 243

原创 大规模日志收集处理项目的技术总结

参考:http://sdjcw.iteye.com/blog/1814703 以下是2012年一个公司内部项目的技术总结,涉及到的方面比较多比较杂,拿出来和大家分享下。如果有更好的方案或者想法请联系我,谢谢~!注:文章中提到的其他系统(如哈勃Agent、EagleEye)是公司内部的其他系统,这里就不详细介绍了。简介TLog是一个分布式的,可靠的,对大量数据进行收集、分析、展现的...

2013-12-22 21:04:02 119

原创 OpenTSDB的设计之道

OpenTSDB是一个架构在Hbase系统之上的实时监控信息收集和展示平台。它在海量数据的压力下,仍然保证了存储的效率,那么它背后有什么值得借鉴的地方呢?1)使用AsyncHbase而非HBase自带的HTable。使用线程安全、非阻塞、异步、多线程并发的HBase API,在高并发和高吞吐时,可以获得更好的效果。建议在使用AsyncHBase​时,在CPU core有保证的前提下,可以...

2013-12-22 20:56:11 293

原创 web.xml配置注意点

1. servlet启动初始化servlet默认只有访问到才会被初始化,可以通过如下配置容器启动时初始化 <servlet> <servlet-name>dispatcherServlet</servlet-name> <servlet-class>com.taobao.hsf.tlog.proxy.web.core.Pro...

2013-12-19 20:29:50 146

原创 tomcat日志输出

tomcat的日志有两个catalina.out和localhost,一般经常看catalina.out,但localhost也很重要。比如如下错误只在localhost里面显示:写道yunpeng@yunpeng-duitang:/work/apache-tomcat-5.5.35/logs$ cat localhost.2013-12-19.log 2013-12-19 14:42:...

2013-12-19 14:46:58 210

原创 hbase文档集合

 HBase Java客户端编程HBase性能优化方法总结(一):表的设计HBase性能优化方法总结(二):写表操作HBase性能优化方法总结(三):读表操作HBase性能优化方法总结(四):数据计算  HBase一次慢查询请求的问题排查与解决过程HBase在数据统计应用中的使用心得 HBase使用中几个容易犯的小错误 HBase HFile与...

2013-12-17 23:27:05 339

原创 Linux服务器Cache占用过多内存导致系统内存不足问题的排查解决

作者: 大圆那些事 | 文章可以转载,请以超链接形式标明文章原始出处和作者信息网址: http://www.cnblogs.com/panfeng412/archive/2013/12/10/drop-caches-under-linux-system.html问题描述Linux服务器内存使用量超过阈值,触发报警。问题排查首先,通过free命令观察系统的内存使用情况,显示如下...

2013-12-17 23:22:02 355

原创 hbase总结-HTable和HTablePool使用注意事项

HTable和HTablePool都是HBase客户端API的一部分,可以使用它们对HBase表进行CRUD操作。下面结合在项目中的应用情况,对二者使用过程中的注意事项做一下概括总结。HTableHTable是HBase客户端与HBase服务端通讯的Java API对象,客户端可以通过HTable对象与服务端进行CRUD操作(增删改查)。它的创建很简单:Configuration...

2013-12-17 23:09:46 438

原创 hbase in action学习笔记一(quick start)

一. quick start1. wget http://apache.claz.org/hbase/hbase-0.92.1/hbase-0.92.1.tar.gztar xvfz hbase-0.92.1.tar.gz 2. 编辑conf/hbase-site.xml<?xml version="1.0"?><?xml-stylesheet type...

2013-12-17 22:31:45 133

原创 通过LogStash收集nginx日志

参考: https://medium.com/devops-programming/b01bd0876e82 KIBANA WEB INTERFACEShipping nginx access logs to LogStashA centralized web interface for grepping and filtering logs.Comma...

2013-12-17 00:48:25 340

原创 logstash elasticsearch kibana 介绍

参考:http://www.cnblogs.com/buzzlight/p/logstash_elasticsearch_kibana_log.html 日志的分析和监控在系统开发中占非常重要的地位,系统越复杂,日志的分析和监控就越重要,常见的需求有:根据关键字查询日志详情监控系统的运行状况统计分析,比如接口的调用次数、执行时间、成功率等异常数据自动触发消息通知基...

2013-12-16 22:49:22 134

原创 几种file copy的性能对比

测试了几种file copy的性能:package mytest;import java.io.BufferedInputStream;import java.io.BufferedOutputStream;import java.io.BufferedReader;import java.io.FileInputStream;import java.io.File...

2013-12-16 10:45:11 597

原创 log4j2 源码分析

1.初始化 Logger logger = LogManager.getLogger(MyTest.class);org.apache.logging.log4j.LogManager.getLogger()LoggerContext.start()LoggerContext.reconfigure()LoggerContext.setConfiguration()org.a...

2013-12-15 23:15:37 410 1

原创 Kryo为什么比Hessian快

参考:Kryo为什么比Hessian快

2013-12-15 23:14:09 195

原创 linger close用法

Linux下tcp连接断开的时候调用close()函数,有优雅断开和强制断开两种方式。那么如何设置断开连接的方式呢?是通过设置socket描述符一个linger结构体属性。linger结构体数据结构如下: #include <arpa/inet.h>struct linger {  int l_onoff;  int l_linger;};...

2013-12-13 14:18:49 643

原创 python 解析命令参数(argument)组件argparse

参考:http://youngsterxyf.github.io/2013/03/30/argparse/  import argparseif __name__ == "__main__": parser = argparse.ArgumentParser() parser.add_argument('-l', action="store") ...

2013-12-11 17:35:50 381

jvm规范

最权威的JVM规范,深入讲解classloader,class装载时机,类装载安全

2007-11-06

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除