- 博客(3)
- 资源 (2)
- 收藏
- 关注
转载 SnappyData-一个构建在Spark上的支持实时HTAP场景的解决方案
1、设计目标 1、实时的OLTP+OLAP型的操作 2、数据规模在50TB-100TB以下:太大规模的数据(PB规模),还要求实时出结果的场景,并不是SnappyData的设计目标。 3、微批的流失写入:实时数据的写入最好按批次写入。例如列表上的频繁的基于点的update,效率并不是很高。 2、数据流 上图介绍了流数据的注入以及数据分析的过程,如下:1、当集群搭建完成,此时就可以从...
2018-03-28 14:53:30 1663
转载 Druid架构概览
什么是DruidDruid是一个高效的数据查询系统,主要解决的是对于大量的基于时序的数据进行聚合查询。数据可以实时摄入,进入到Druid后立即可查,同时数据是几乎是不可变。通常是基于时序的事实事件,事实发生后进入Druid,外部系统就可以对该事实进行查询。Druid系统架构Druid是一组系统,按照职责分成不同的角色。目前存在五种节点类型:Historical: 历史节点的职责主要是对历史的数据进...
2018-03-23 10:54:37 1766
转载 神奇的HyperLogLog算法【转载 #涉及到数学原理】
什么是HyperLogLog首先,HyperLogLog是一个基数估计算法,并不是统计算法,而且不是数据估计算法,而是基数估计算法。其空间效率非常高,1.5K内存可以在误差不超过2%的前提下,用于超过10亿的数据集合基数估计。如果了解到HyperLogLog算法的空间效率优势后,就急着用其去实现大数据统计需求,经常会得到失望的结果。什么是基数统计呢,要明白这个词本来就区别于个数。比如说一个集合{0...
2018-03-06 09:52:27 1397
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人