大数据之ETL
文章平均质量分 71
大数据中的ETL
acethan
这个作者很懒,什么都没留下…
展开
-
列式存储
OLAP中数据存储的问题OLAP 需要队列进行选择,行式存储按行存数据,使用索引加快对数据的查找(索引包括聚集索引(表记录的排列顺序与索引的排列顺序一致)和非聚簇索引(非聚集索引指定了表中记录的逻辑顺序,但记录的物理顺序和索引的顺序不一致))。这种方式对按列的存储和检索不是很高效,查询某一列数据需要将所有行的数据扫描一次,而且对统计分析也不友好。列式存储原理若使用列式存储可以只用扫描出需要的列,行、列存储的对比。文件格式parquet 文件格式:如下图所示:parquet file = hea原创 2021-04-23 09:41:26 · 1243 阅读 · 1 评论 -
Spark SQL
数据类型原创 2021-03-19 12:34:46 · 62 阅读 · 0 评论 -
Spark基础
spark是什么Spark 计算模式也是属于MapReduce 模式。Spark框架是对MR框架的优化。两者的对比DiffMRSpark数据存储HDFS的splitRDD对数据计算编程范式Map Reduce 表达能力不强算子操作计算过程落盘数据,IO代价大中间结果在内存运行方式进程运行TaskTask以线程方式执行大数据应用主要有分类框架离线处理MapReduce交互式查询hive流处理storm原创 2021-03-19 12:01:43 · 112 阅读 · 0 评论 -
数仓之拉链表-从需求到实现
拉链表某天领导提了个需求,需要按某段时间,比如按天为单位,来记录订单的状态,需要从时间上能对状态进行跟踪,比如2020-01-01 下单的某一订单,2020-01-02 客户支付,2020-01-03 ~ 2020-01-05之间这笔单在运输途中,2020-01-06用户退单了这么一过程,这咋弄呢?面对问题,真男人不能怂,有了问题就解决问题吧。先来看看我们手里有什么数据呢?从业务开发兄弟那边得到订单数据放在DB里,每条订单只有一条订单记录和若干条状态流水。ok,这下有了数据就该我们动脑子想想怎么办了。原创 2021-03-11 09:21:49 · 244 阅读 · 0 评论