"MapReduce研究现状和毕玄-HBase简介与实践分享"分享总结

概述:

此分享包括:MapReduce研究现状和毕玄-HBase简介与实践分享的汇总

 

汇总点:

Table in HBase以Region为单位管理region(startKey,endKey);
Hbase每个Column Family单独存储:storeFile;
Hbase当某个Column Family累积的大小 > 某阈值时,自动分裂成两个Region通过查找-ROOT- & .META.来获取某行在某region上;
RegionServer:Region读写操作的场所;
Master:管理Region的分配和基于zookeeper来保证HA;
Hbase的强一致性:同一行数据的读写只在同一台regionserver上进行;
Hbase的水平伸缩表现在:region的自动分裂以及master的balance、只用增加datanode机器即可增加容量和增加regionserver机器即可增加读写吞吐量;
Hbase行事务同一行的列的写入是原子的;
Hbase合理设计rowKey & Pre-Sharding;
Hbase开启压缩create table ‘t1’,{NAME => ‘cf1’, COMPRESSION => ‘lzo’}
Hadoop集群监控工具Ganglia;

 

Hadoop调优点:

I/O:
io.sort.mb
io.sort.percent
io.sort.record.percent
io.sort.spill.percent
Shuffle:
tasktracker.http.threads
mapred.reduce.parallel.copies
mapred.job.shuffle.input.buffer.percent
其他:
数据压缩
推测性执行(同时执行同一Task,杀死运行慢的)
同一节点的Child重用jvm
重写Partitioner,使分布到各Reducer的数据均匀
设置堆空间大小

 

写速度关键因素:

Table region分布均衡;
单台region server的region数;
hbase.regionserver.handler.count
hbase.regionserver.global.memstore.upperLimit
hbase.hregion.memstore.block.multiplier
hbase.hstore.blockingStoreFiles
hbase.hregion.max.filesize

 

读速度关键因素:

单台Region Server上的Region数;
StoreFile数;
bloomfilter;
in-memory flag;
blockcache设置;
hfile.block.cache.size;

 

更多详情参见附件

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值