数仓
文章平均质量分 83
默萧756
这个作者很懒,什么都没留下…
展开
-
数仓学习笔记(13)——元数据管理(Atlas)
为组织提供开放式元数据管理和治理功能,用以构建其数据资产目录,对这些资产进行分类和管理,并为数据分析师和数据治理团队,提供围绕这些数据资产的协作功能。Atlas的具体功能如下:元数据分类支持对元数据进行分类管理,例如个人信息,敏感信息等元数据检索可按照元数据类型、元数据分类进行检索,支持全文检索血缘依赖支持表到表和字段到字段之间的血缘依赖,便于进行问题回溯和影响分析等1)表与表之间的血缘依赖2)字段与字段之间的血缘依赖。原创 2022-09-25 20:11:59 · 1043 阅读 · 0 评论 -
数仓学习笔记(12)——集群监控(Zabbix)
Zabbix是一款能够监控各种网络参数以及服务器健康性和完整性的软件。Zabbix使用灵活的通知机制,允许用户为几乎任何事件配置基于邮件的告警。这样可以快速反馈服务器的问题。基于已存储的数据,Zabbix提供了出色的报告和数据可视化功能。原创 2022-09-24 15:34:39 · 1334 阅读 · 1 评论 -
数仓学习笔记(11)——即席查询
Apache Kylin是一个开源的分布式分析引擎,提供Hadoop/Spark之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay Inc开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。原创 2022-09-23 21:32:24 · 511 阅读 · 0 评论 -
数仓学习笔记(10)——Superset
Apache Superset是一个开源的、现代的、轻量级BI分析工具,能够对接多种数据源、拥有丰富的图表展示形式、支持自定义仪表盘,且拥有友好的用户界面,十分易用。原创 2022-09-16 21:08:17 · 702 阅读 · 0 评论 -
数仓学习笔记(9)——全流程调度(Azkaban)
Azkaban中预置了几个特殊的判断条件,称为预定义宏。预定义宏会根据所有父Job的完成情况进行判断,再决定是否执行。可用的预定义宏如下:(1)all_success: 表示父Job全部成功才执行(默认)(2)all_done:表示父Job全部完成才执行(3)all_failed:表示父Job全部失败才执行(4)one_success:表示父Job至少一个成功才执行(5)one_failed:表示父Job至少一个失败才执行1)案例需求:JobA执行一个shell脚本。原创 2022-09-15 20:40:33 · 679 阅读 · 1 评论 -
数仓学习笔记(8)——数仓搭建(ADS层)
此处要求统计新增留存率,新增留存率具体是指留存用户数与新增用户数的比值,例如2020-06-14新增100个用户,1日之后(2020-06-15)这100人中有80个人活跃了,那2020-06-14的1日留存数则为80,2020-06-14的1日留存率则为80%。该需求要求统计最近30日发布的所有优惠券的领用情况和补贴率,补贴率是指,优惠金额与使用优惠券的订单的原价金额的比值。该需求要求统计最近30日发布的所有活动的参与情况和补贴率,补贴率是指,优惠金额与参与活动的订单原价金额的比值。原创 2022-09-12 23:23:11 · 750 阅读 · 0 评论 -
数仓学习笔记(7)——数仓搭建(DWT层)
这里的7天前和30天前都指的是那一天的累计行为,而如果要统计最近7天或者30天的累计值,需要使用第一张表(前一天的全量累计行为)+第二张表(最新一天的累积行为)-7/30那一天的累计行为。原创 2022-09-11 16:25:53 · 464 阅读 · 0 评论 -
数仓学习笔记(6)——数仓搭建(DWS层)
DWS层的分区以及装载逻辑都是一致的,因此这里统一进行说明。原创 2022-09-10 18:27:03 · 455 阅读 · 0 评论 -
数仓学习笔记(5)——数仓搭建(DWD层)
注意:需要开始的clear_data方法是因为累计型快照的9999_99_99表里本身就是有数据的,当每日进行装载的时候,完成的数据表会加入该天的分区,而没有完成的数据就会覆盖9999_99_99表中原有的数据。但是如果碰到某些特殊情况,当该天的表数据全部被完成,那么所有的数据都会写入到该天的对应分区中,那么就不会有数据覆盖到9999_99_99的原有数据中,此时应该把9999_99_99中的数据进行手动清空,这样就不会有数据多余。,然后使用get_json_object函数解析每个字段。原创 2022-09-06 19:36:11 · 685 阅读 · 3 评论 -
数仓学习笔记(4)——数仓搭建(ODS层和DIM层)
目录一、数仓搭建-ODS层1、ODS层(用户行为数据)1.1 创建日志表ods_log1.2 Shell中单引号和双引号区别1.3 ODS层日志表加载数据脚本2、ODS层(业务数据)二、数仓搭建-DIM层1、商品维度表(全量)1.1 建表语句1.2 分区规划1.3 数据装载1.4 Hive读取索引文件问题1.5 首日装载和每日装载2、优惠卷维度表(全量)2.1 建表语句2.2 分区规划2.3 数据装载2.4 首日装载和每日装载3、活动维度表(全量)3.1 建表语句3.2 分区规划3.3 数据装载 3.4 首原创 2022-09-03 21:54:25 · 2386 阅读 · 2 评论 -
数仓学习笔记(3)——数仓建模理论
例如,2020年5月21日,宋宋老师在京东花了250块钱买了一瓶海狗人参丸。维度表:时间、用户、商品、商家。关系建模和维度建模是两种数据仓库的建模技术。每一个事实表的行包括:具有可加性的数值型的度量值、与维表相连接的外键,通常具有两个和两个以上的外键。这里的部份依赖是和主键有关,再拆分成两张表的时候,不仅把部分依赖消除了,同时也消除了部分数据冗余。例如:用户、商品、日期、地区等。在维度建模的基础上又分为三种模型:星型模型、雪花模型、星座模型。,执行引擎变成了Spark,Spark负责采用RDD执行。...原创 2022-08-30 22:13:38 · 1358 阅读 · 0 评论 -
数仓学习笔记(2)——业务数据采集
以下为本电商数仓系统涉及到的业务数据表结构关系。这34个表以订单表、用户表、SKU商品表、活动表和优惠券表为中心,延伸出了优惠券领用表、支付流水表、活动订单表、订单详情表、订单状态表、商品评论表、编码字典表退单表、SPU商品表等,用户表提供用户的详细信息,支付流水表提供该订单的支付详情,订单详情表提供订单的商品数量等情况,商品表给订单详情表提供商品的详细信息。本次讲解以此34个表为例,实际项目中,业务数据库中表格远远不止这些。...原创 2022-08-27 11:29:51 · 817 阅读 · 1 评论 -
数仓学习笔记(1)——用户行为数据采集
我们要收集和分析的数据主要包括页面数据、事件数据、曝光数据、启动数据和错误数据。原创 2022-08-22 02:32:35 · 861 阅读 · 1 评论