Architecting HBase Applications-O'Reilly 2016（笔记）最有趣的部分就是Key如何设计了

最新推荐文章于 2021-09-22 13:11:45 发布

志_祥

最新推荐文章于 2021-09-22 13:11:45 发布

阅读量1.2k

点赞数

分类专栏：系统架构读书笔记文章标签： hbase 生态系统 Hadoop 分布式数据存储后端架构

本文链接：https://blog.csdn.net/cteng/article/details/52166080

版权

275 篇文章 0 订阅

订阅专栏

49 篇文章 1 订阅

订阅专栏

Architecting HBase Applications

监控工具
1. Cloudera Manager
2. Apache Ambari
3. Hannibal
SQL on Hadoop/HBase
1. Apache Phoenix
2. Apache Trafodion
3. Splice Machine
4. Honorable Mentions (Kylin, Themis, Tephra, Hive, and Impala)
Frameworks
1. OpenTSDB
2. Kite
3. HappyBase（Python绑定）
4. AsyncHBase

Omneo，Avro，Bulk load，Solr Cloud on Hadoop？
create 'sensors', {NUMREGIONS => 15, SPLITALGO => 'HexStringSplit'}, \ （注意这里对原始的id进行了MD5哈希）

{NAME => 'v',

COMPRESSION => 'SNAPPY',\

BLOOMFILTER => 'NONE',\

DATA_BLOCK_ENCODING => 'FAST_DIFF'}
HFile Validation
1. hbase hfile -printmeta -f ch07/hfiles/v/345c5c462c6e4ff6875c3185ec84c48e
Data Validation
1. 记录数：hbase(main):003:0> count 'sensors', INTERVAL => 40000, CACHE => 40000
  1. 或 hbase org.apache.hadoop.hbase.mapreduce.RowCounter sensors
2. File Content
  1. scan 'sensors', {COLUMNS => ['v'], STARTROW => '000a', LIMIT => 1 }
3. Data Indexing
  1. solrctl？
4. Data Retrieval
  1. CloudSolrServer solr = new CloudSolrServer("localhost:2181/solr");
  2. 。。。

作者老喜欢批评Cassandra缺乏生态系统支持，tmd
Kafka/Storm/Flume？
1. ... we will use a Kafka queue as our Flume channel.
2. Flume Interceptor：XmlToAvro？
Lily Indexer？
append the customer or insurance ID at the end of the MD5...
DocumentID：不作为组合key的一部分（不同row可能在不同的region！），而是直接在column上存储Document内容的多个版本
1. 上限估计：10000 * 10KB Avro记录 = 100MB，而HBase region可以很容易增加到10GB（还能承受？）
Morphlines脚本？skip
UniformSplit？
alter 'documents', { NAME => 'c', COMPRESSION => 'GZ' }

HBASE-11339 MOB：‘写放大’问题 => 当刷新memstore时，仅其引用被写到HFile（专门的MOB区域）
1. http://blog.cloudera.com/blog/2015/06/inside-apache-hbases-new-support-for-mobs/
RDBMS需要SSD，而HBase只需要SDATA，所以开销更低？？？
一致性：保证数据放在一个row里面（一次Put完成），抛弃cross-ref？

the more regions there are, the smaller the memstore flushes will be（更小的HFile）
原因：
1. Maximum region size set too low
2. Configuration settings not updated following an HBase upgrade
3. Accidental configuration settings
4. Over-splitting
5. Improper presplitting
解决方案：
1. 0.98-：
  1. CopyTable？
    1. Kafka and Flume可配置为暂停数据Ingest？
  2. Offline merges（集群必须完全下线）
2. 0.98+：HBASE-7403 online merge
预防
1. Regions Size：最大size设置为最少10GB
2. Key and Table Design（降低cf）

每个cf会被flush到一个HFile里，但共享同一个memstore！
Split：基于目录的均衡？（split操作不会分布到另一个RS上去吧？还是说这里的目录是HDFS上的虚拟逻辑概念？）
删除cf：alter 'sensors', NAME => 'picture', METHOD => 'delete'
合并cf：CopyTable，源和目标可以是同一个？
1. hbase org.apache.hadoop.hbase.mapreduce.CopyTable --new.name=customer --families=address:profile customer
  1. 合并多个cf到一个：--families=address:profile,phone:profile,status:profile
分隔cf到新表（都是通过数据复制来实现的！）
1. hbase org.apache.hadoop.hbase.mapreduce.CopyTable --families=picture --new.name=map customer

RS没有来得及向ZooKeeper作HeartBeat报告，YouAreDeadException
原因
1. Java平台上，memory fragmentation（内存碎片）是GC和pause的主要原因（由于不一样的object size）
2. Storage Failure
3. Power-Saving Features
4. Network Failure
避免
1. Reduce Heap Size（靠？）
  1. 默认设置：<20G，CMS
2. Off-Heap BlockCache（BucketCache）：允许HBase自己管理碎片？
3. 使用G1GC：内存根据不同size作regions分类，garbage first，允许HBase更大的memstore（从而提高性能）
  1. -XX:+UseG1GC
  2. -XX:+PrintFlagsFinal
  3. -XX:+PrintGCDetails
  4. -XX:+PrintGCDateStamps
  5. -XX:+PrintGCTimeStamps
  6. -XX:+PrintAdaptiveSizePolicy
  7. -XX:+PrintReferenceGC
4. 附加选项（当内存超过100G）
  1. -XX:-ResizePLAB
  2. -XX:+ParallelRefProcEnabled
  3. -XX:+AlwaysPreTouch
  4. -XX:MaxGCPauseMillis=100
5. 其他的有趣参数
  1. -XX:ParallelGCThreads=X 公式：8 + (logical processors – 8) (5/8)
  2. -XX:G1NewSizePercent=X
  3. -XX:+UnlockExperimentalVMOptions
  4. -XX:G1HeapWastePercent=5
  5. -XX:G1MixedGCLiveThresholdPercent=75
6. Configure Swappiness to 0 or 1
7. Disable Environment-Friendly Features（电源管理）
8. 硬件冗余