新型数据库技术
文章平均质量分 82
新型数据库技术
拾牙慧者
会点c++、python;
展开
-
gp的分布、分区策略(概述)
对于大规模并行处理数据库来说,一般由单master与多segment组成。 那么数据表的单行会被分配到一个或多个segment上,此时需要想一想分布策略 分布 在gp6中,共有三个策略: 哈希分布 随机分布 复制分布 哈希分布 就是对分布键进行hash,这样相同值的key始终散列到同一个segment上。如果选择唯一的分布键,将确保较均匀的数据分布。 要使用这一策略,需要在创建表使用 “DISTRIBUTED BY(column,[…])” 子句。 随机分布 将数据行按顺序依次发送到各个segment,此时原创 2021-08-08 22:18:17 · 2417 阅读 · 3 评论 -
OLTP 系统和 OLAP 系统的核心设计思想
关于 OLTP 系统和 OLAP 系统的核心设计思想 数据存储系统的关于查询的典型操作: -- 第一种需求: 根据 key(1) 找 value(name,age), 单点查询 select name, age from student where id = 1; student:map id=1, value=(name,age) -- 第二种需求: 根据 department 统计平均年龄, 全表查询 select name, age from student where age > 30; 全表原创 2021-07-20 23:15:27 · 639 阅读 · 0 评论 -
OLAP 技术之列式存储与数据压缩(快查询方法之一)
前言 列式存储和数据压缩,对于一款高性能数据库来说是必不可少的特性。一个非常流行的观点认为,如果你想让查询变得更快,最简单且有效的方法是减少数据扫描范围和数据传输时的大小,而列式存储和数据压缩就可以帮助我们实现上述两点。列式存储和数据压缩通常是伴生的,因为一般来说列式存储是数据压缩的前提。 按列存储与按行存储相比,前者可以有效减少查询时所需扫描的数据量,这一点可以用一个示例简单说明。假设一张数据表A拥有50个字段A1~A50,以及100行数据。现在需要查询前5个字段并进行数据分析,则可以用如下SQL实现:原创 2021-07-19 23:48:20 · 1521 阅读 · 1 评论