
大数据
文章平均质量分 96
数据仓、CK、hive等笔记整理
-代号9527
逢山开路,遇水搭桥!纸上得来终觉浅,绝知此事要躬行。
展开
-
【Nebula】图数据库Nebula Graph
对于客户端的每个写入请求,Leader 会将该写入以 Raft-wal 的方式,将该条同步给其他 Follower,并只有在“超过半数”副本都成功收到 Raft-wal 后,才会返回客户端该写入成功。对于有内在联系的事务, 关系型数据库通常会提取实体之间的关系, 将关系单独存储到表或列中,而实体的类型和属性存储在其他列甚至其他表中,这使得数据管理费时费力。NebulaGraph中,元数据的存储在Meta服务,而具体数据的存储在Storage服务。path类型的路径遍历时,点和边都不可以重复。原创 2023-03-31 14:17:12 · 2173 阅读 · 0 评论 -
【ClickHouse】
写入后的某个时刻(大概 10-15 分钟后),ClickHouse 会自动执行合并操作(等不及也可以手动通过 optimize 执行),把临时分区的数据,合并到已有分区中。稀疏索引的好处就是可以用很少的索引数据,定位更多的数据,代价就是只能定位到索引粒度的第一行,然后再进行一点扫描。以上创建表时,使用MergeTree引擎,primary key和MySQL不同的是,该引擎的主键也会加索引,表引擎的使用方式就是必须显式在创建表时定义该表使用的引擎,以及引擎使用的相关参数。原创 2023-05-24 21:20:01 · 835 阅读 · 9 评论 -
【ClickHouse】什么是ClickHouse?CK入门
➢ 由于某一列的数据类型都是相同的,针对于数据存储更容易进行数据压缩,每一列选择更优的数据压缩算法,大大提高了数据的压缩比重。几乎覆盖了标准 SQL 的大部分语法,包括 DDL 和 DML,以及配套的各种函数,用户管理及权限管理,数据的备份与恢复。但相反的,insert一条数据时,就得计算每个Value的存储地址。但当查找所有人的年龄时,就需要不停的查找,或者全表扫描,且遍历的很多数据都是不需要的。使用场景:一般数据值比较小,不涉及大量的统计计算,精度要求不高的时候。原创 2023-05-23 13:53:12 · 3392 阅读 · 5 评论