数仓数据湖
文章平均质量分 82
未来的仓湖一体
for your wish
好记性不如烂笔头。个人笔记用的博客
展开
-
文件格式对比ORC-Parquet,存储格式对比Gzip-Bzip2-Snappy,Hive和Spark对比
Parquet常用于Impala、Drill、Spark、Arrow;5.处理深层次文件 parquet设计之初就是为了处理嵌套式数据如json。除此之外没有比ORC好太多的地方。impala和spark现在很流行所以parquet存储格式流行。4.orc支持事务表分桶update操作,parquet完全不支持。1.存储文件的压缩比总结:ORC > Parquet。2.存储文件的查询速度总结:查询速度相近,ORC好一点点。3.可兼容的平台:ORC常用于Hive、Presto;原创 2023-02-14 17:27:25 · 1356 阅读 · 0 评论 -
Linux下Doris1.1+Mysql安装启动
查看文件格式vim中 :set ff或者直接file 这个文件名查看centos版本。原创 2022-08-03 16:15:46 · 791 阅读 · 0 评论 -
测试spark操作hudi 0.9 cdh6.3.2 版本不兼容时
spark-shell操作(1)spark-shell启动,需要指定spark-avro模块,因为默认环境里没有,spark-avro模块版本号需要和spark版本对应,(可以在maven仓库https://mvnrepository.com/查看spark 个版本对应的spark-avro有没有再maven仓),并且使用Hudi编译好的jar包。发现spark-avro使用的3.0.0版本scala 是2.12,如果使用的spark 是apache spark3.0.0之后的可以参考第一节编译时原创 2022-02-21 10:23:55 · 362 阅读 · 0 评论 -
CDH6.3.2编译安装Hudi0.9
1.准备编译环境1)Maven安装(1)把apache-maven-3.6.1-bin.tar.gz上传到linux的/data/software目录下(2)解压apache-maven-3.6.1-bin.tar.gz到/data/module/目录下面tar -zxvf apache-maven-3.6.1-bin.tar.gz -C /data/module/(3)修改apache-maven-3.6.1的名称为maven(4)添加环境变量到/etc/profile中.原创 2022-02-21 09:42:16 · 2219 阅读 · 0 评论 -
事实表的三种类型设计
事实表作为数据仓库维度建模的核心,紧紧围绕着业务过程来设 计,通过获取描述业务过程的度量来表达业务过程,包含了引用的维度 和与业务过程有关的度量。1、三种事实表概述 事实表有三种类型 : 事务事实表、周期快照事实表和累积快照事实表。1.1 事务事实表 也称原子事实表,描述业务过程,跟踪控件或时间上某点的度量事件,保存的是最原子的数据; 个人理解:类似于mysql binlog日志,每一次相关的 change 都记录下来,生成一行新的数...转载 2021-11-24 19:47:09 · 2688 阅读 · 0 评论 -
数据仓库3-维度建模2
首先里了解维度建模中的事实表类型,在依次介绍维度类型,一致性维度和一致性事实,维度设计方法。接下来进入正题。 一、事实表 事实表存储了从业务活动或事件提炼出来的性能度量,它主要包含维度表的外键和连续变化的可加性数值或半可加事实。事实表产生于业务过程中而不是业务过程的描述性信息。它一般是行多列少,占据数据仓库大约90%的空间。在维度模型中也有表示多对多关系的事实表,其他都是维度表。 1、事实表粒度 事实表的粒度是产生事实行数据的度...转载 2021-02-25 10:13:35 · 328 阅读 · 2 评论 -
数据仓库2-维度建模
学习数据仓库,一定会了解到两个人:数据仓库之父比尔·恩门(Bill Inmon)和数据仓库权威专家Ralph Kimball。Inmon和Kimball两种DW架构支撑了数据仓库以及商业智能近二十年的发展,其中Inmon主张自上而下的架构,不同的OLTP数据集中到面向主题、集成的、不易失的和时间变化的结构中,用于以后的分析;且数据可以通过下钻到最细层,或者上卷到汇总层;数据集市应该是数据仓库的子集;每个数据集市是针对独立部门特殊设计的。而Kimball正好与Inmon相反,Kimball架...转载 2021-02-25 09:51:04 · 220 阅读 · 0 评论 -
数据仓库1-数仓的意义
在进行数据分析的时候,我们总会遇到一些名词,比如数据仓库。数据仓库是数据分析中一个比较重要的东西,数据仓库是一个面向主题的、集成的、相对稳定的、反应历史变化的数据集合。下面就说一下数据分析中的数据仓库。 对数据分析的理解大家应该都是比较熟悉的,数据分析的流程有很多,首先需要进行对业务的理解,然后就是对数据的理解,挖掘数据,数据处理,数据分析,数据展现,这些步骤就能够给大家带来一个不错的数据分析结果。 但是数据分析中的工作最重要的就是数据处理工作,由于数据分析对数据质量...转载 2021-02-25 09:36:08 · 1131 阅读 · 0 评论 -
数仓架构层次
1. Source, 3NF/File, 源数据2. Stg, 3NF,暂存数据(同源同构,不对外提供服务)3. ODS, 3NF,操作数据(简单处理,提供基于业务数据的应用)4. BL, Star, 明细数据(面向主题域,数据加工,产生衍生指标)5. DM, Start, 汇总数据(特定领域的应用)6. OLAP, Cube, 多维数据7. Report。最难:需求分析、模型设计工作量最大:ETL(60-80%)标准化:格式,缺省值,类型,长度,范围,去空格L.原创 2020-07-15 13:35:14 · 390 阅读 · 0 评论