只需六点教您深度辨识延云YDB

最新推荐文章于 2019-02-26 18:29:54 发布

qq_33160722

最新推荐文章于 2019-02-26 18:29:54 发布

阅读量1.5k

点赞数

文章标签：大数据全文检索技术性能数据

本文链接：https://blog.csdn.net/qq_33160722/article/details/50166221

版权

暴力扫描。
暴力扫描的方式，不用多说，性能很差，需要狂堆机器，成本也太高。而这类系统一般的并发也不大，如果数据量在百亿级别，千台的集群规模，一天也就能进行几十万次的查询而已。

YDB则采用大索引技术，通过索引技术直接定位到相关记录，避免记录的逐条扫描，即使只有50几台的机器，百亿数据也能查询个几百万次。

预计算-不留原始数据,只能看特定的维度、粒度。

如果数据经过预先汇总，原始数据没有保留，在未来某一时间如果想查看其它维度或者粒度的数据数据将无法实现。

YDB则保存每条数据的原始数据，没有经过汇总，查询的时候根据大索引技术以及独特的标签技术，在几秒的时间，返回任意维度，任意筛选条件的结果，灵活性很好，多维钻取，全文检索都是YDB的强项。

只能局部计算，本质KV。
这类系统最大的问题无法进行任意维度的筛选，因为数据时基于KV，做任何检索的前提必须要有K，虽然可以针对多个维度分别创建KV索引，但是一旦索引的维度特别多，创建索引的性能就会严重降低，而且大部分场景下我们的数据都会有数据倾斜-有数据倾斜值的列在查询的时候，因为value特别巨大，会出现内存不够的情形，也会导致索引失败。

YDB真实场景支持了长达3万个列的索引的创建，通过多级跳跃表结合查询上的巧妙处理，完美的解决了数据倾斜的问题。

我们以服务的方式运行，托管你的数据。
   YDB则采用交给客户独立部署的方式，但YDB提供全程的技术支持。延云公司不会接触到您的数据，您不用担心您的数据会被窃取。
全内存计算-海量SSD硬盘
   技术实现采用将数据全部LOAD到内存中，或者使用大量内存，计算的时候通过SSD硬盘与内存进行快速的内存交换，这种时间可以保持较高的运算速度，但是运算成本太高，每天100亿，保留一个月3000亿的数据，这种严重依赖SSD盘以及内存的系统需要千台机器的成本。
     YDB数据时放到HDFS上的，并没有load到内存中，但是由于采用标签标记技术，重复的值只存储一次，与磁盘交互的IO很少，如果是上述场景，YDB大约使用30台的常规机器，而且也不需要使用SSD盘。

索引存储在本地磁盘，但可以通过副本恢复。
   传统数据库的经典方案，因为数据量少，恢复也很快，所以很使用。但是并不适用于大数据的场景，真实运维经验表明，大数据场景的机器数据写入量都特别的大，频繁的磁盘读写，硬盘损坏的情况经常发生，一般一台机器有2T*10的存储空间，以目前的磁盘读写速度至少需要10多个小时，甚至几天的恢复时间，这种数据恢复速度大部分业务是不能够接受的。
   通过副本技术来保障高可用的显著缺点是有多少个副本就要额外冗余出多少倍的机器，CPU内存的消耗都是副本数量的倍数。而且在CAP原则里，数据的一致性的保证很难很难。
   YDB是将数据存储在HDFS中，机器宕机，服务进程会迅速的切换到其他的机器，快速的恢复服务，数据也不会丢失。

qq_33160722

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
只需六点教您深度辨识延云YDB

暴力扫描。暴力扫描的方式，不用多说，性能很差，需要狂堆机器，成本也太高。而这类系统一般的并发也不大，如果数据量在百亿级别，千台的集群规模，一天也就能进行几十万次的查询而已。YDB则采用大索引技术，通过索引技术直接定位到相关记录，避免记录的逐条扫描，即使只有50几台的机器，百亿数据也能查询个几百万次。预计算-不留原始数据,只能看特定的维度、粒度。如果数据经过预先汇总，原始数据
复制链接

扫一扫