【数据库学习】ClickHouse(ck)

1,ClickHouse(CK)

是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS)。

1)特性

  1. 按列存储,列越多速度越慢;
    按列存储,数据更容易压缩(类型相同、区分度);==》每次读取的数据就更多,更少的io。
  2. 聚合性能高;
  3. 类sql操作;仅支持数据的查询、批量写入、批量删除。
  4. 用于磁盘查询,同时也利用SSD和内存
  5. 支持近似计算

2)常见的列式数据库有

Vertica、 Paraccel (Actian Matrix,Amazon Redshift)、 Sybase IQ、 Exasol、 Infobright、 InfiniDB、 MonetDB (VectorWise, Actian Vector)、 LucidDB、 SAP HANA、 Google Dremel、 Google PowerDrill、 Druid、 kdb+。

3)ck为什么快?

  1. 列式存储,数据类型相同,值范围也可能小(稀疏索引),更容易压缩,压缩之后每次io读取数据更多,降低了io。
  2. 可以把更多的数据放入内存。
  3. 在ck中,数据保存在不同的shard上,每一个shard都由一组用于容错的replica组成,查询可以并行地在所有shard上进行处理。
  4. 向量引擎,更高效的使用cpu。

插入为什么块?顺序批量写入;
删除为什么快?删除不快,一般按表删除(比如按天分区)。
查询为什么块?索引;
不支持修改;
group by为什么块?按列算,列数据量小;

2,索引原理

1)主索引(Primary Indexes)建立:LSM树

  1. 数据批量入库;
  2. 索引文件组织:主键列 + 其它排序列 升序
    每个表都有一个数据文件(*.bin)用于存储索引
  3. 按稀疏矩阵压缩,存储在磁盘上。

Granule (颗粒、行组)
是ck进行数据处理的最小的不可分割数据集。
ck每次读取数据,不是读取单独的行,而是始终读取整个行组(Granule)。

在这里插入图片描述第一个(根据磁盘上的物理顺序)8192行(它们的列值)在逻辑上属于颗粒0,然后下一个8192行(它们的列值)属于颗粒1,以此类推。
每个颗粒对应主索引的一个条目。

2)索引查询

1>颗粒选择

通过主索引二分查找,选择可能包含匹配查询的行的颗粒。

2>定位颗粒

每个列的标记文件以偏移量的形式存储两个位置:

  1. 压缩块位置
    包含所选颗粒的压缩版本的压缩列数据文件中定位块。这个压缩块可能包含几个压缩的颗粒。所定位的压缩文件块在读取时被解压到内存中。
  2. 解压数据的位置
    颗粒在解压数据块中的位置。

3)二级索引(Skipping Indexes)

传统的关系数据库的二级索引并不适用与ck(或者列式存储数据库),因为磁盘上没有单独的行可以添加到索引中。

如果一级索引查询后基数过大,可以考虑建立二级索引;
如果二级索引没有太大作用,此时,可以考虑:

  1. 新建一个不同的主键的新表;
  2. 创建一个物化视图;
  3. 增加Projecttion

ck主要的二级索引类型有:minmax、set、Bloom Filter。

1>Minmax

存储每个块的索引表达式的最小值和最大值(如果表达式是一个元组,它分别存储元组元素的每个成员的值)。

场景:标量、元组表达式
不适用于:数组、map数据类型

2>Set

这个集合包含块中的所有值。
场景:列值相对集中。每组颗粒中基数较低、但总体基数较高的列。

3>Bloom Filter Types(跳数索引)

允许对集合成员进行高效的是否存在测试,但代价是有轻微的误报,读取更多的块。
场景:列有较多离散值、主键和目标列具有很强的相关性。

4)MergeTree引擎

  • 10
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 深度学习ck数据库是一个用于存储和管理深度学习模型权重参数的数据库。深度学习是一种基于神经网络的机器学习方法,具有较强的模型复杂性和表达能力,可以在图像、语音、文本等多个领域实现非常优秀的表现。 由于深度学习模型通常包含大量的权重参数,这些参数的存储和管理对模型的训练和应用都是至关重要的。深度学习ck数据库提供了一个统一的存储和管理框架,使得研究者和开发者可以更方便地访问和共享模型权重参数。 深度学习ck数据库的设计考虑了可扩展性和高效性。它可以容纳大规模的模型权重参数,并且可以支持快速的读写操作。另外,深度学习ck数据库还提供了各种方便的接口和工具,帮助用户进行模型的加载、保存、查询等操作。 在实际应用中,深度学习ck数据库扮演了重要的角色。它可以为学术界和工业界的研究人员提供一个共享和对比模型的平台,促进深度学习的发展。此外,深度学习ck数据库还可以用于模型的迁移学习,提供一个预训练好的模型作为初始权重参数,加速模型的收敛和优化过程。 总之,深度学习ck数据库是一个重要的深度学习工具,为存储和管理模型权重参数提供了统一的框架和方便的接口。它在促进深度学习研究和应用方面发挥了重要的作用。 ### 回答2: 深度学习是一种机器学习的方法,通过模拟人脑神经网络的结构和功能,对大规模的数据进行分析和学习,从而能够自主地发现并学习其中的模式和规律。 CK数据库(Collective Knowledge)是一个开源的、社区驱动的、面向复杂数据和机器学习任务的共享平台。它的目标是帮助组织和研究者共享他们的实验数据、方法和结果,从而促进学术和工业界之间的合作和创新。 在深度学习领域,许多研究人员和机构面临着一个共同的问题,那就是重复性实验和结果的共享和复现。CK数据库提供了一个集中式的平台,让研究人员可以轻松地记录和共享他们的实验设计、数据集、模型和结果。这大大简化了实验的重复性和验证的过程,同时也提供了一个方便的知识库,让其他研究人员可以借鉴和学习CK数据库还具有自动化的特性,它可以为用户提供模型自动优化、算法选择和资源调度等功能。通过使用CK数据库,用户可以更加高效地进行深度学习实验,并且获得更好的结果。 总之,深度学习依靠大规模数据和复杂的神经网络结构进行模式识别和学习。而CK数据库则帮助研究人员在这个领域更好地共享数据和实验结果,加速研究进展,促进合作和创新。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值