大数据应用
flyingnet
编程圈小炮儿~~~
展开
-
LSM树由来、设计思想以及应用到HBase的索引
讲LSM树之前,需要提下三种基本的存储引擎,这样才能清楚LSM树的由来: 哈希存储引擎 是哈希表的持久化实现,支持增、删、改以及随机读取操作,但不支持顺序扫描,对应的存储系统为key-value存储系统。对于key-value的插入以及查询,哈希表的复杂度都是O(1),明显比树的操作O(n)快,如果不需要有序的遍历数据,哈希表就是your Mr.RightB树存储引擎是B树(关于B树的由来转载 2018-01-20 13:16:53 · 221 阅读 · 0 评论 -
HBase读延迟的12种优化套路
任何系统都会有各种各样的问题,有些是系统本身设计问题,有些却是使用姿势问题。HBase也一样,在真实生产线上大家或多或少都会遇到很多问题,有些是HBase还需要完善的,有些是我们确实对它了解太少。总结起来,大家遇到的主要问题无非是Full GC异常导致宕机问题、RIT问题、写吞吐量太低以及读延迟较大。 Full GC问题之前在一些文章里面已经讲过它的来龙去脉,主要的解决方案...转载 2018-02-12 15:46:36 · 616 阅读 · 0 评论 -
Spark中repartition和coalesce的用法
转载链接:http://blog.csdn.net/u011981433/article/details/50035851重分区函数: repartition(numPartitions:Int):RDD[T] coalesce(numPartitions:Int,shuffle:Boolean=false):RDD[T] 它们两个都是RDD的分区进行重新划分,repartiti...转载 2018-03-04 09:51:59 · 689 阅读 · 0 评论