电商数仓(用户行为数据仓库)
文章平均质量分 86
电商数仓
Knight_AL
这个作者很懒,什么都没留下…
展开
-
电商数仓-(数仓分层概念+数仓理论)
目录为什么要分层数据集市与数据仓库概念数仓命名规范为什么要分层数据集市与数据仓库概念数仓命名规范表命名 ODS层命名为ods_表名 DWD层命名为dwd_dim/fact_表名 DWS层命名为dws_表名 DWT层命名为dwt_购物车 ADS层命名为ads_表名 临时表命名为xxx_tmp 用户行为表,以log为后缀。脚本命名 数据源_to_目标_db/log.sh 用户行为脚本以log为后缀;业务数据脚本以db为后缀。...原创 2020-07-26 17:12:28 · 2901 阅读 · 2 评论 -
数仓搭建-ADS层
目录设备主题活跃设备数(日、周、月)每日新增设备沉默用户数设备主题活跃设备数(日、周、月)需求定义:日活:当日活跃的设备数周活:当周活跃的设备数月活:当月活跃的设备数每日新增设备沉默用户数需求定义:沉默用户:只在安装当天启动过,且启动时间是在 7 天前...原创 2020-08-01 22:53:47 · 6592 阅读 · 1 评论 -
大数据之电商数仓(6) | 消费Kafka数据Flume
目录日志消费Flume配置Flume内存优化Flume组件日志消费Flume启动停止脚本采集通道启动/停止脚本日志消费Flume配置1.Flume的具体配置如下:(1)在hadoop14的/export/servers/flume/conf目录下创建kafka-flume-hdfs.conf文件a1.sources=r1 r2a1.channels = c1 c2a1.sinks = k1 k2a1.sources.r1.type = org.apache.flume.source.ka原创 2020-07-23 22:35:43 · 522 阅读 · 0 评论 -
大数据之电商数仓(5) | 项目经验之Kafka
目录Kafka的常用命令Kafka的压力测试Kafka机器数量计算Kafka的常用命令1.查看Kafka Topic列表bin/kafka-topics.sh --zookeeper hadoop12:2181 --list2.创建Kafka Topicbin/kafka-topics.sh --zookeeper hadoop12:2181,hadoop13:2181,hadoop14:2181 --create --replication-factor 1 --partitions 1 -原创 2020-07-23 18:23:44 · 540 阅读 · 0 评论 -
大数据之电商数仓(4) | 采集日志Flume
目录集群规划项目经验之Flume组件日志采集Flume配置Flume的ETL和分类型拦截器集群规划项目经验之Flume组件1.Source(1)Taildir Source相比Exec Source、Spooling Directory Source的优势TailDir Source:断点续传、多目录。Flume1.6以前需要自己自定义Source记录每次读取文件位置,实现断点续传。断点续传的意思:断了从断了那个点开始举个例子:1-100 在40断了 下次开始就从40开始Exec原创 2020-07-23 16:13:53 · 460 阅读 · 0 评论 -
大数据之电商数仓(3) | 日志生成
目录日志生成集群日志生成启动脚本日志生成下载之后直接打包链接:https://pan.baidu.com/s/11fBCXFVTqIJtUqMSrhZUng 提取码:mm1j记得改为主方法的全类名日志生成之后 会在/tmp/logs下储存1.将 生 成 的 jar 包 logcollector-1.0-SNAPSHOT-jar-with-dependencies.jar 拷 贝 到 hadoop12 服务器/export/servers 上,并同步到 hadoop13 的/export/原创 2020-07-21 11:09:28 · 568 阅读 · 1 评论 -
大数据之电商数仓(2) | 项目经验之Hadoop
1.确认HDFS的存储目录,保证存储在空间最大硬盘上2.在hdfs-site.xml文件中配置多目录,最好提前配置好,否则更改目录需要重新启动集群,在 hdfs-site.xml 文件中配置多目录,注意新挂载磁盘的访问权限问题。<property> <name>dfs.datanode.data.dir</name><value>file:///${hadoop.tmp.dir}/dfs/data1,file:///hd2/dfs/data2,原创 2020-07-20 20:02:41 · 625 阅读 · 0 评论 -
大数据之电商数仓(1) | 项目需求及架构设计
目录项目需求项目框架技术选型系统数据流程设计框架版本选型服务器选型集群资源规划设计项目需求一、项目需求➢1、 数据**采集平台搭建**➢2、 实现**用户行为数据仓库的分层搭建➢3、 实现业务数据仓库的分层搭建➢4、针对数据仓库中的数据进行,留存、转化率、GMV、复购率、活跃等报表分析**二、思考题➢1、 项目技术如何选型 ?➢2、框架版本如何选型( Apache、 CDH、HDP)➢3、 服务器使用**物理机还是云主机?➢4、 如何确认集群规模**? (假设每台服务器8T硬盘)项目原创 2020-07-18 19:39:06 · 1334 阅读 · 0 评论