![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 91
kaka11
这个作者很懒,什么都没留下…
展开
-
数据库 Selection Scan 学习笔记
一. SIMD 的 store/ load 指令1.1 selective store将 vector lane(simd 寄存器) 的一部分(根据 mask)写入连续内存![image.png](https://img-blog.csdnimg.cn/img_convert/a21ead523e002a7a2afa439ad2127237.png#clientId=ua75d289f-9a44-4&crop=0&crop=0&crop=1&crop=1&fro原创 2021-12-22 11:24:52 · 1151 阅读 · 0 评论 -
Parquet 编码学习笔记
目录一.官方Parquet 编码文档二. Plain Encoding三. 字典编码四. RLE / Bit-Packed 混合4.1 编码格式4.2 其中的bit-packing 原理4.3. varint-encode()4.4 其它一.官方Parquet 编码文档更详细的可以直接看原文。本文只是一些个人的理解和学习笔记。parquet-format/Encodings.md at master · apache/parquet-format · Gi...原创 2021-12-18 22:11:15 · 1524 阅读 · 0 评论 -
Parquet 嵌套学习笔记
目录一. parquet 嵌套列表示二.Definition levels && Repetition levels2.1定义:2.2例子:2.3生成具有 repetition levels 和 definition levels 的 column strips。三. 参考:一. parquet 嵌套列表示为了编码嵌套列,parquet 使用 group, repeated 来表示一个类似于 struct 和 list 的概念。比如这个 Doc...原创 2021-12-18 21:46:07 · 1181 阅读 · 1 评论 -
LakeHouse 简单总结
目前企业的大数据生态以及痛点:数据湖: 以原生格式存储各种大型原始数据集,其中包含结构化,半结构化,非结构化数据。面向数据科学家和分析师,AdHoc 探索型的灵活查询方式。这种方式会要求在原始数据上进行最灵活的查询,性能实际要求往往没有那么高。(虽然对用户来说,肯定是越快越好。)数据仓库: 会使用 ETL 技术,对表进行转换处理加工,Join,指标计算等,形成多个层次的结构化数据或者指标。面向终端用户,有一定模式的查询方式。其中指标能够加速查询,相当于预计算,使得最终查询转换成 KV 直接查询或者上卷查原创 2021-12-05 12:04:48 · 624 阅读 · 0 评论