![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 93
Dreammmming Time
人啊,毕业时意气风发,进入社会后就逐渐钝化了,因此希望通过知识分享和新知识学习,在大数据领域彼此勉励,共同成长,拒绝被环境束缚。
展开
-
Spark原理之Cache Table的工作原理及实现自动缓存重复Table Scan的思考
CACHE TABLE,可以让用户自定义要缓存的结果集,实际上就是一个临时表,不过数据存储在Spark集群内部,由Application所分配的executors管理。一旦定义了一个缓存表,就可以在SQL脚本中随处引用这个表名,提高数据检索速度,同时也会资源不必要的资源开销。原创 2024-04-26 15:25:18 · 1229 阅读 · 4 评论 -
OLAP技术的发展及趋势简述
类似于MySQL中存储JSON表达式列(虚拟列)的功能,Iceberg中利用Transformer实现隐藏分区的功能,Clickhouse中的聚合视图表的功能等,该功能可以动态扩充源表的列,同时可以由使用者决定写时计算或读时计算,以应对不同的场景。对于数据分析人员,使用OLAP系统不过是计算出预想的数据结构和关系,然后再在自己的场景下利用数据分析手段,找到数据与业务的关系,但随着大模型或AI技术的普及,数据从清洗、到转换、到计算、到分析、再到解释,大胆预测必将成为一个固定的。原创 2024-02-06 13:24:16 · 1259 阅读 · 0 评论 -
Iceberg:基于Spark3.x的MERGE INTO语法实现数据的增量写入
/ 新旧数据记录,Merge阶段,会为每一个结果行添加一个新的列,其列名就这个常量。原创 2023-02-18 14:42:19 · 1634 阅读 · 0 评论 -
Iceberg:ZOrder的实现及执行流程分析
使用Z-Order索引,可以按任意维度对数据进行排序,以获得更加高效且均衡地范围查询。它即可以作为一级索引,直接影响底层数据组织形式,甚至可以取代二索引(更加节省内存,吞吐量也理更高)。相比于传统的按的顺序的自然排序策略,一旦过滤条件与排序键的前缀匹配模型冲突,数据查找空间就会膨胀,进而影响查询性能,而ZOrder由于会考虑每个维度的值,将数据按排列,因此即使查询时不满足最优条件匹配模型,也不会导致查询空间的过度膨胀。原创 2023-12-23 17:41:17 · 1122 阅读 · 0 评论 -
Iceberg:浅析基于Snapshot的事务过程
Iceberg基于实现了乐观无锁地数据并发读写能力(MVCC,Multi Versions Concurrency Controll),默认提供了快照级别的事务隔离,因此可以至少避免脏读的问题。,是对于并发事务的INSERT/DELETE操作,会导致连续读取相同区间的数据记录时,数据条数不同。,是对于并发事务的UPDATE操作,会导致连续读取相同数据记录的数据发生了变化。原创 2023-12-24 15:37:03 · 1154 阅读 · 0 评论 -
HTAP(Hybrid Transactional/Analytical Processing)系统之统一存储的实时之道
本文介绍了一个支持实现写入的、基于LSM的、支持HTAP场景的存储系统,LASER。相关论文中提出了ColumnGroup存储规范,能在兼并行存、列存的优点,以相对最好的性能同时支持OLTP和OLAP事务,为打造流批一体计算&存储系统提供了借鉴,非学值得我们细细口味。原创 2024-01-09 19:03:56 · 1384 阅读 · 0 评论