离线数仓
J1nX1N
这个作者很懒,什么都没留下…
展开
-
**离线电商数仓学习笔记day11**
离线电商数仓学习笔记03-系统业务数据 电商常识 SKU:库存量基本单位,引申为产品统一编号的简称,每种产品均对应有唯一的SKU号。 SPU:商品信息聚合的最小单位,是一组可复用、易检索的标准化信息集合。 比如我们去商场买一部苹果手机IPhonex,IPhonex就是SPU,而128G内存,银色的IPhonex这种具体到颜色的就是SKU。有点类似于类与对象的区别。 数仓理论 1 表的分类 实体表:一般用于存储现实存在的业务对象,比如用户,商品,商家等; 维度表:一般指对应的业务状态,比如订单状态之类的,也称原创 2020-08-25 21:21:16 · 204 阅读 · 0 评论 -
**离线电商数仓学习笔记day10**
需求四:本周回流用户数 本周回流是指上周之前活跃过,上周未活跃,但本周活跃了 公式:回流=本周活跃-上周本周新增-上周活跃 ADS层 插入表 drop table if exists ads_back_count; create external table ads_back_count( `dt` string COMMENT '统计日期', `wk_dt` string COMMENT '统计日期所在周', `wastage_count` bigint COMMENT '回流设原创 2020-08-24 20:27:13 · 167 阅读 · 0 评论 -
**离线电商数仓学习笔记day09**
需求三:沉默用户数 沉默用户指的是只在安装当天启动过,且启动时间是在一周前 准备新数据 为了分析沉默用户、本周回流用户数、流失用户、最近连续3周活跃用户、最近七天内连续三天活跃用户数,需要准备2019-02-12、2019-02-20日的数据。 2019-02-12数据准备 修改日志时间 dt.sh 2019-02-12 启动集群 cluster.sh start 生成日志数据 lg.sh 将HDFS数据导入到ODS层 ods_log.sh 2019-02-12 将ODS数据导入到DWD层 dwd_原创 2020-08-24 18:31:31 · 152 阅读 · 0 评论 -
**离线电商数仓学习笔记day07**
离线电商数仓学习笔记02-数仓分层 数仓分层-ADS层 ADS层是对DWD层数据进行再加工汇总,为统计报表提供数据。 1,统计每日设备活跃数 建表 drop table if exists ads_uv_count; create external table ads_uv_count( `dt` string COMMENT '统计日期', `day_count` bigint COMMENT '当日用户数量', `wk_count` bigint COMMENT '当周用户数原创 2020-08-20 20:13:18 · 181 阅读 · 0 评论 -
**离线电商数仓学习笔记day06**
离线电商数仓学习笔记02-数仓分层 数仓分层-DWS层 DWS层主要负责对数据进行轻度汇总,但粒度和DWD层基本保持一致。 注:我在notepad++上面写Hive命令,一开始写命令复制到虚拟机上执行,一直报错,而且对了一遍命令也没有错误,百度之后有人说不能用tab键,应该用四个空格代替,试过之后果然就不报错了 1,统计每日活跃设备明细 (1)建表 create external table dws_uv_detail_day ( `mid_id` string COMMENT '设备唯一标识',原创 2020-08-20 17:52:44 · 198 阅读 · 0 评论 -
**离线电商数仓学习笔记day05**
离线电商数仓学习笔记02-数仓分层 数仓分层 1 为什么要数仓分层 (1)复杂问题简单化:可以将一个复杂的任务需求分解为多个步骤,每层只处理简单的业务逻辑,比较方便,而且可以方便定位问题。 (2)增强数据的复用性:通过分层计算所得的数据,在处理其他的业务逻辑时,可以直接使用中间数据,不需要从头计算,提高工作效率。 (3)隔离原始数据:不论是数据的异常性或者是数据敏感性,将统计数据和原始数据解耦开。 2 数仓分几层 一般情况下数仓分为四层:ODS层、DWD层、DWS层、ADS层。当然对于大公司来说,由于业务逻原创 2020-08-19 15:45:59 · 388 阅读 · 0 评论 -
**离线电商数仓学习笔记day04**
离线电商数仓学习笔记01-数据采集模块安装02 安装Zookeeper 集群规划 在三个节点上均安装zookeeper 解压安装 配置服务器编号 在/opt/module/zookeeper-3.4.10目录下创建zkData,并在这个目录下创建myid文件,随后在myid文件中添加与节点对应的编号,随后分发到其他节点上。每个节点的id不能重复,必须改成不同 配置zoo.cfg文件 首先重命名/opt/module/zookeeper-3.4.10/conf目录下的zoo_sample.cfg为zoo.cf原创 2020-08-18 09:02:56 · 171 阅读 · 0 评论 -
**离线电商数仓学习笔记day03**
离线电商数仓学习笔记01-数据采集模块安装01 安装Hadoop 虚拟机环境准备 (1)克隆虚拟机(Hadoop102 hadoop103 hadoop104) (2)修改克隆虚拟机的静态IP (3)修改主机名(与第一步主机名一致) (4)关闭防火墙 (5)在/opt目录下创建software、module文件夹 [root@hadoop102 opt]$ sudo mkdir module [root@hadoop102 opt]$ sudo mkdir software 安装JDK (1)检查是否安原创 2020-08-17 21:50:11 · 174 阅读 · 0 评论 -
**离线电商数仓学习笔记day02**
离线电商数仓学习笔记02-数据生成(用户行为数据) 埋点数据格式 数据主要分为两类:(1)事件日志数据 (2)启动日志数据 数据格式分为两类:(1)公共字段(2)业务字段 公共字段:所以手机都包含的字段(如IP地址、版本号等) 业务字段:埋点上报的字段,有具体的业务类型 实例: { "ap":"xxxxx",//项目数据来源 app pc "cm": { //公共字段 "mid": "", // (String) 设备唯一标识 "uid": "", // (String) 用户标识原创 2020-08-17 20:57:48 · 390 阅读 · 0 评论 -
**离线电商数仓学习笔记day01**
离线电商数仓学习笔记01-数仓概念及架构设计 数仓概念 数据仓库(Data Warehouse)是为企业所有部门决策制定过程,提供所有系统数据支持的数据集合。与数据仓库相类似的集合叫数据集市(Data Mart),它是满足特定部门或者用户的需求,按照多维的方式进行存储,包括定义维度、需要计算的指标、维度的层次等,生成面向决策分析需求的数据立方体。 数据仓库并不是数据的最终目的地,而是为数据最终目的地做好准备。准备包括对数据的:清洗、转义、分类、重组、合并、拆分、统计等。 数仓概念图如上所示,数据来源主要为日原创 2020-08-17 18:56:36 · 400 阅读 · 0 评论