- 博客(56)
- 资源 (1)
- 问答 (2)
- 收藏
- 关注
原创 HBase in 2013
原文:http://yanbohappy.sinaapp.com/?p=434 2013年马上就要过去了,总结下这一年HBase在这么一年中发生的主要变化。影响最大的事件就是HBase 0.96的发布,代码结构已经按照模块化release了,而且提供了许多大家迫切需求的特点。这些特点大多在Yahoo/Facebook/淘宝/小米等公司内部的集群中跑了挺长时间了,可以算是比较稳定可用了。...
2013-12-31 20:50:02 183
原创 hadoop文档集合
架构概述hadoop Important Concepts 工作总结hadoop使用中的几个小细节(一) 功能介绍Hadoop的原生比较器RawComparatorHadoop在MapReduce中使用压缩详解HDFS之SequenceFile和MapFile ...
2013-12-28 19:31:20 128
原创 hbase文档集合
问题总结一次奇异的getRegionInfo异常定位两次hbase丢失数据的故障及原因分析hbase中regionserver常见的oom原因分析hbase写被block住的典型案例分析HBase性能优化总结:http://www.cnblogs.com/panfeng412/archive/2012/03/08/hbase-performance-tuning-sectio...
2013-12-28 18:44:30 144
原创 hbase上应用lucene创建索引及检索
hbasene(https://github.com/akkumar/hbasene)是开源项目,在hbase存储上封装使用Lucene来创建索引,代码API非常简单,熟悉lucene的朋友可以很方便地创建。 以下为测试代码,完成读取一张hbase上记录url和用户id的表,对其创建索引并进行简单的基于url的索引的代码。当取到search的结果后,就可以拿到想要的数据了。由于分...
2013-12-28 18:23:13 206
原创 hbase Region Server定位
参考:http://iwinit.iteye.com/blog/1811265 HBase的table是该region切分的,client操作一个row的时候,如何知道这个row对应的region是在哪台Region server上呢?这里有个region location过程。主要涉及到2张系统表,-ROOT-,.META.。其结构见图 在zookeeper的/hbase...
2013-12-28 17:32:57 213
原创 Linux 2.6.36内核优化指南
作者:Ken WuEmail: ken.wug@gmail.com转载本文档请注明原文链接 http://kenwublog.com/docs/linux-kernel-2-6-36-optimization.htm! 介绍本文档是一篇关于Linux Kernel 2.6.36的最简优化指南。作者旨在编译一份性能最佳且适合程序开发用的内核(带gnome图形界面)。本文提及的内...
2013-12-26 16:03:34 337
原创 HBase在淘宝主搜索的Dump中的性能调优
目前HBase已经运用于淘宝主搜索的全量和增量的数据存储,有效的减低的数据库的压力,增强了业务扩展的能力。Dump系统的特点是要求在短时间内处理大量数据,对延时要求高。在实施这个项目过程中,我们积累了一些优化的实践,抛砖引玉,供大家参考。环境:Hadoop CDH3U4 + HBase 0.92.11、 尽可能用LZO数据使用LZO,不仅可以节省存储空间尤其是可以提高传输的效率,因...
2013-12-26 16:01:11 100
原创 HBase二级索引与Join
二级索引与索引Join是Online业务系统要求存储引擎提供的基本特性。RDBMS支持得比较好,NOSQL阵营也在摸索着符合自身特点的最佳解决方案。这篇文章会以HBase做为对象来探讨如何基于Hbase构建二级索引与实现索引join。文末同时会列出目前已知的包括0.19.3版secondary index,?ITHbase, Facebook和官方Coprocessor方案的介绍。理论目标在...
2013-12-26 15:59:41 132
原创 HBase的rowkey设计
访问hbase table中的行,只有三种方式:1 通过单个row key访问2 通过row key的range3 全表扫描Hadoop Sequence File Author:Pirate LeomyBlog: http://blog.csdn.net/pirateleo/myEmail: codeevoship@gmail.com转载请注明出处,谢谢。...
2013-12-26 15:45:01 128
原创 分布式系统概述(Hadoop与HBase的前生今世)
古代,人们用牛来拉重物。当一头牛拉不动一根圆木时,他们不曾想过培育更大更壮的牛。同样:我们也不需要尝试开发超级计算机,而应试着结合使用更多计算机系统。—— Grace Hopper(计算机软件第一夫人,计算机历史上第一个BUG的发现者,也是史上最大BUG千年虫的制造者)这就是分布式。 再来看一组令人瞠目结舌的数据:2012年11月11日支付宝总交易额191亿元,...
2013-12-26 15:37:37 165
原创 Hbase,Zookeeper性能优化之-参数设置
zookeeper.session.timeout默认值:3分钟(180000ms)说明:RegionServer与Zookeeper间的连接超时时间。当超时时间到后,ReigonServer会被Zookeeper从RS集群清单中移除,HMaster收到移除通知后,会对这台server负责的regions重新balance,让其他存活的RegionServer接管.调优:这个timeout决...
2013-12-25 20:18:35 362
原创 hbase查询超时导致的错误
今天上线跑一个hbase程序出现如下错误:org.apache.hadoop.hbase.regionserver.LeaseException: org.apache.hadoop.hbase.regionserver.LeaseException: lease '5008606692699215376' does not exist 问题解决HBase 客户端调用建立在由S...
2013-12-25 19:53:13 777
原创 hbase实现count功能
代码如下: Scan scan = new Scan(); scan.addFamily(Bytes.toBytes("cf")); scan.setCaching(500); AggregationClient ac = new AggregationClient(config); long rowCount = ac.rowCount(Bytes.toBytes...
2013-12-25 15:42:06 966
原创 hbase mapreduce例子
参考:http://hbase.apache.org/book/mapreduce.htmlhttp://genius-bai.iteye.com/blog/641927 HBase 自带例子hbase-0.20.3\src\test计算表的总行数(org.apache.hadoop.hbase.mapreduce.RowCounter)bin/hadoo...
2013-12-25 15:40:41 131
原创 hbase client无法连接到本地hbase server
今天下午浪费了不少时间在搞本地hbase server测试,测试代码如下:import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop.hbase....
2013-12-25 00:51:02 466 1
原创 hbase无法启动问题
今天遇到hbase无法启动,找了很久,才发现可能是data目录的文件丢失导致的,重新清空了/duitang/data/hbase, /tmp/habse /duitang/data/hbase_zookepper三个目录之后重启,问题解决,错误如下: 总之hbase之需要配置conf/hbase-site.xml<configuration> <proper...
2013-12-24 23:53:21 1110
原创 hadoop深入学习之SequenceFile
1.Hadoop’s SequenceFileSequenceFile 是 Hadoop 的一个重要数据文件类型,它提供key-value的存储,但与传统key-value存储(比如hash表,btree)不同的是,它是 appendonly的,于是你不能对已存在的key进行写操作。每一个key-value记录如下图,不仅保存了key,value值,也保存了他们的 长度。 Seque...
2013-12-24 21:51:26 146
原创 HBase实战之利用Coprocessor实现聚合函数
关键词LongColumnInterpreter参考:http://zhang-xzhi-xjtu.iteye.com/blog/1926732 HBase实战之CoprocessorProtocol及一个简单的通用扩展实现http://zhang-xzhi-xjtu.iteye.com/blog/1926732...
2013-12-24 21:14:44 524
原创 HBase性能优化2—使用Coprocessor进行RowCount统计
http://www.binospace.com/index.php/make-your-hbase-better-2/关键词:AggregationClient 对于Table内RowKey个数的统计,一直是HBase系统面临的一项重要工作,目前有两种执行该操作的方式。1)使用MapReduce进行。可以借助HTableInputFormat实现对于Rowkey的划分,但是需要...
2013-12-24 10:23:20 584
原创 HBase之Java API
参考 http://blog.csdn.net/javaman_chen/article/details/7220216 1.Configuration 在使用Java API时,Client端需要知道HBase的配置环境,如存储地址,zookeeper等信息。这些信息通过Configuration对象来封装,可通过如下代码构建该对象 Configuration...
2013-12-24 10:10:36 88
原创 hadoop hdfs环境搭建
参考:http://wiki.apache.org/hadoop/GettingStartedWithHadoophttp://blog.csdn.net/warmspace2008/article/details/8540159 hadoop环境搭建参考官方wiki,首先下载hadoop官方包,我选择的是hadoop-1.2.1。conf目录新增配置文件:<?xml...
2013-12-23 16:41:57 174
原创 使用RawComparator加速Hadoop程序
http://yoyzhou.github.io/blog/2013/05/13/hadoop-write-ur-own-rawcomparator/ static class MyComparator extends WritableComparator { static { WritableComparator.define(MyWritable.class, ...
2013-12-23 14:53:49 199
原创 Hadoop序列化与Writable接口介绍
Hadoop序列化与Writable接口介绍http://yoyzhou.github.io/blog/2013/05/09/hadoop-serialization-and-writable-object-1/http://yoyzhou.github.io/blog/2013/05/10/hadoop-serialization-and-writable-object-2/ ...
2013-12-23 14:32:24 191
原创 Mahout与聚类分析
让Mahout KMeans聚类分析运行在Hadoop上Mahout与聚类分析:http://yoyzhou.github.io/blog/2013/05/26/clustering-with-mahout/http://yoyzhou.github.io/blog/2013/06/04/mahout-clustering-with-hadoop/...
2013-12-23 14:19:35 243
原创 大规模日志收集处理项目的技术总结
参考:http://sdjcw.iteye.com/blog/1814703 以下是2012年一个公司内部项目的技术总结,涉及到的方面比较多比较杂,拿出来和大家分享下。如果有更好的方案或者想法请联系我,谢谢~!注:文章中提到的其他系统(如哈勃Agent、EagleEye)是公司内部的其他系统,这里就不详细介绍了。简介TLog是一个分布式的,可靠的,对大量数据进行收集、分析、展现的...
2013-12-22 21:04:02 119
原创 OpenTSDB的设计之道
OpenTSDB是一个架构在Hbase系统之上的实时监控信息收集和展示平台。它在海量数据的压力下,仍然保证了存储的效率,那么它背后有什么值得借鉴的地方呢?1)使用AsyncHbase而非HBase自带的HTable。使用线程安全、非阻塞、异步、多线程并发的HBase API,在高并发和高吞吐时,可以获得更好的效果。建议在使用AsyncHBase时,在CPU core有保证的前提下,可以...
2013-12-22 20:56:11 293
原创 web.xml配置注意点
1. servlet启动初始化servlet默认只有访问到才会被初始化,可以通过如下配置容器启动时初始化 <servlet> <servlet-name>dispatcherServlet</servlet-name> <servlet-class>com.taobao.hsf.tlog.proxy.web.core.Pro...
2013-12-19 20:29:50 146
原创 tomcat日志输出
tomcat的日志有两个catalina.out和localhost,一般经常看catalina.out,但localhost也很重要。比如如下错误只在localhost里面显示:写道yunpeng@yunpeng-duitang:/work/apache-tomcat-5.5.35/logs$ cat localhost.2013-12-19.log 2013-12-19 14:42:...
2013-12-19 14:46:58 210
原创 hbase文档集合
HBase Java客户端编程HBase性能优化方法总结(一):表的设计HBase性能优化方法总结(二):写表操作HBase性能优化方法总结(三):读表操作HBase性能优化方法总结(四):数据计算 HBase一次慢查询请求的问题排查与解决过程HBase在数据统计应用中的使用心得 HBase使用中几个容易犯的小错误 HBase HFile与...
2013-12-17 23:27:05 339
原创 Linux服务器Cache占用过多内存导致系统内存不足问题的排查解决
作者: 大圆那些事 | 文章可以转载,请以超链接形式标明文章原始出处和作者信息网址: http://www.cnblogs.com/panfeng412/archive/2013/12/10/drop-caches-under-linux-system.html问题描述Linux服务器内存使用量超过阈值,触发报警。问题排查首先,通过free命令观察系统的内存使用情况,显示如下...
2013-12-17 23:22:02 355
原创 hbase总结-HTable和HTablePool使用注意事项
HTable和HTablePool都是HBase客户端API的一部分,可以使用它们对HBase表进行CRUD操作。下面结合在项目中的应用情况,对二者使用过程中的注意事项做一下概括总结。HTableHTable是HBase客户端与HBase服务端通讯的Java API对象,客户端可以通过HTable对象与服务端进行CRUD操作(增删改查)。它的创建很简单:Configuration...
2013-12-17 23:09:46 438
原创 hbase in action学习笔记一(quick start)
一. quick start1. wget http://apache.claz.org/hbase/hbase-0.92.1/hbase-0.92.1.tar.gztar xvfz hbase-0.92.1.tar.gz 2. 编辑conf/hbase-site.xml<?xml version="1.0"?><?xml-stylesheet type...
2013-12-17 22:31:45 133
原创 通过LogStash收集nginx日志
参考: https://medium.com/devops-programming/b01bd0876e82 KIBANA WEB INTERFACEShipping nginx access logs to LogStashA centralized web interface for grepping and filtering logs.Comma...
2013-12-17 00:48:25 340
原创 logstash elasticsearch kibana 介绍
参考:http://www.cnblogs.com/buzzlight/p/logstash_elasticsearch_kibana_log.html 日志的分析和监控在系统开发中占非常重要的地位,系统越复杂,日志的分析和监控就越重要,常见的需求有:根据关键字查询日志详情监控系统的运行状况统计分析,比如接口的调用次数、执行时间、成功率等异常数据自动触发消息通知基...
2013-12-16 22:49:22 134
原创 几种file copy的性能对比
测试了几种file copy的性能:package mytest;import java.io.BufferedInputStream;import java.io.BufferedOutputStream;import java.io.BufferedReader;import java.io.FileInputStream;import java.io.File...
2013-12-16 10:45:11 597
原创 log4j2 源码分析
1.初始化 Logger logger = LogManager.getLogger(MyTest.class);org.apache.logging.log4j.LogManager.getLogger()LoggerContext.start()LoggerContext.reconfigure()LoggerContext.setConfiguration()org.a...
2013-12-15 23:15:37 410 1
原创 linger close用法
Linux下tcp连接断开的时候调用close()函数,有优雅断开和强制断开两种方式。那么如何设置断开连接的方式呢?是通过设置socket描述符一个linger结构体属性。linger结构体数据结构如下: #include <arpa/inet.h>struct linger { int l_onoff; int l_linger;};...
2013-12-13 14:18:49 643
原创 python 解析命令参数(argument)组件argparse
参考:http://youngsterxyf.github.io/2013/03/30/argparse/ import argparseif __name__ == "__main__": parser = argparse.ArgumentParser() parser.add_argument('-l', action="store") ...
2013-12-11 17:35:50 381
请问如何去掉A标签的选中边框
2011-10-20
多线程操作导致list报NoSuchElementException
2009-04-09
TA创建的收藏夹 TA关注的收藏夹
TA关注的人