项目
文章平均质量分 78
世昌愿世昌盛
脱离业务讲代码全是耍流氓
展开
-
Docker安装Oracle_11g
docker创建oracleoracle在docker中的基本使用Navicat 连接oracle注意事项原创 2022-06-22 15:52:49 · 5453 阅读 · 4 评论 -
拉链表
业务数据到ODS的拉链表解决方案拉链表:本质就是保存对历史数据的维护记录,通过数据有效窗口的开闭,来确定哪个版本的数据是最新数据。本质上拉链表就是:SCD2的模式按列的解决方案(按列来维护历史记录)前提:不可以用UPDATE语句解决步骤(重要)创建UPDATE表和TMP表查询业务数据库的数据,获取昨日的增量和更新,判断条件是:create_time 为昨日 (满足表示是昨日新增的数据)update_time 为昨日 (满足表示是昨日更新的数据)将第二步抽取到的数原创 2021-01-04 17:55:33 · 312 阅读 · 0 评论 -
大数据项目--知行教育(5)
看板1:访问咨询主题-增量采集注意点:业务系统中,数据表的后缀是年_月,这就表明随着时间推移,被采集的表的后缀是动态变化的。我们的脚本也要做到这一点这个功能要做成自动化的脚本,脚本能够每天定时执行增量采集,一天执行一次当天采集昨日数据数据模拟器在Linux系统中要求运行好数据模拟器,方便以后验证自己的增量脚本工作是否正常模拟器地址:git@gitee.com:javacaoyu/edu-data-gen.git在Linux安装Python3yum install zli原创 2020-12-29 15:12:05 · 1036 阅读 · 0 评论 -
大数据项目--知行教育(4)
执行代码(全量)– 这个文件主要用来保存关于数仓中各个层级的库和表的创建语句– 业务数据库 -> ODS -> DWD -> DWS -> MySQL– 1.2 修改一下HIVE的元数据,确保注释不会乱码– 修改表字段注解和表注解alter table COLUMNS_V2 modify column COMMENT varchar(256) character set utf8;alter table TABLE_PARAMS modify column PARAM_V原创 2020-12-29 15:10:20 · 1266 阅读 · 0 评论 -
大数据项目--知行教育(3)
数仓建模分析数据要从业务数据库采集到数仓中(ODS)ODS分析表数量:2个表(业务2个表,ODS原始存储,ODS也是2个表)表类型:外部表,分区表(采集数据的日期)数据存储类型:TEXTFILE(行存储格式)SequenceFile(行存储格式)ORC(选择这个)(列存储格式)Parquet(列存储格式)表压缩选择:SnappyLzoGZIPBZIPLZ4Zlib(选择)(ODS冷数据)Snappy、Lzo、Zlib区别Zlib特点:压缩率贼高,性能不好Snap原创 2020-12-29 14:57:16 · 990 阅读 · 1 评论 -
大数据项目--知行教育(2)
数仓分层设计迭代计算的概念表1订单id时间用户价格1232020-12-22 11:38:161113212020-12-22 11:38:08211表2订单id时间季度是否节假日用户价格1232020-12-22 11:38:16q4n1113212020-12-27 11:38:08q4y211表3类型销售额节假日11111非节假日999上面3个表可以原创 2020-12-29 14:50:20 · 843 阅读 · 4 评论 -
大数据之数仓建模
两种常见的数仓设计三范式建模尽量减少数据冗余,以关联的形式去关联数据优点:空间占用小,数据冗余少缺点:查询要用很多的JOIN维度建模不在意数据冗余,尽量为了维度而服务优点:查询的时候不需要多数的JOIN缺点:数据占用空间大对于现代的企业来说,空间换性能,是划算的。因为硬盘便宜(相对)。维度建模的概念维度建模是围绕着事实表和维度表两个核心点来进行的事实表事实:就是事件的意思。表示的是系统中一个真实产生的事件信息。举例:JD用户下单,就是一个事件会产生一个下单的原创 2020-12-22 15:09:00 · 469 阅读 · 0 评论 -
数仓分层的概念
数仓分层的概念由于我们做数据分析,大体上在数仓中都是迭代的计算,这种计算就会分层次来进行。这种迭代,通用可以分为3个层级:ODSDWADSODS层Original data service原始数据层记录的是输入数据仓库数据的原始的样子或者经过少量的修改的样子基本上是和来源的地方一致作用:一种数据备份,数据溯源(迭代计算的起点)DW层Data Warehouse数据仓库层在这个层级内就开始进行数据的迭代计算了,在这里会经过一步步的迭代最终得到我们想要的中间数据DW层的内原创 2020-12-22 15:07:06 · 619 阅读 · 0 评论 -
数据仓库理论
学习目标理解OLTP(在线业务处理)和OLAP(在线数据分析)的区别理解数据仓库的特点理解数据仓库系统架构理解指标与维度理解下钻与上卷理解事实表与维度表理解星型模型和雪花模型理解缓慢渐变维掌握数据仓库的分层方法数据仓库介绍数据分析的问题做分析的时候,很多业务数据都会分散的存储到很多业务后台中。数据孤岛数据量巨大,需要一种能够存储海量数据,同时也能分析海量数据的工具工具还需要能够支持常用的SQL解决问题做数据的集中存储分布式存储+分布式计算满足条件的组件Hiv原创 2020-12-21 21:22:11 · 188 阅读 · 0 评论