电商数仓项目

最新推荐文章于 2023-09-04 21:38:10 发布

Bingmous

最新推荐文章于 2023-09-04 21:38:10 发布

阅读量440

点赞数

分类专栏： Hadoop

本文链接：https://blog.csdn.net/weixin_37680513/article/details/107773534

版权

Hadoop 专栏收录该内容

17 篇文章 2 订阅

订阅专栏

1 用户行为数据采集

第1章数据仓库的概念

数据仓库：为企业所有决策过程，提供所有数据支持的战略集合。包括对数据的清洗、分类、重组、合并、拆分、统计等等

第2 章项目需求及架构设计

项目需求：用户行为数据采集平台搭建，业务数据采集平台搭建，数据仓库维度建模，分析用户、流量、会员等核心主题
项目框架：
- 数据采集传输：flume, kafka, sqoop
- 数据存储：mysql, hdfs
- 数据计算：hive, tez
- 任务调度：azkaban
系统数据流程：
- 业务数据从mysql -- sqoop -- HDFS
- 用户行为数据logFile -- flume生产 -- kafka -- flume消费 -- HDFS
版本：hadoop2.7.2，flume1.7.0，hive2.3
集群资源规划：

第3章数据生成模块

埋点数据格式：

json格式，用户行为数据包括事件日志和启动日志，都有公共字段，事件日志包含事件json数组，启动日志是单个json，里面et为start

事件日志：

商品列表页(loading)、商品点击(display)、商品详情页(newsdetail)、广告(ad)、消息通知(notification)、用户后台活跃(active_background)、评论（comment）、收藏（favorites）、点赞（praise）、错误日志

启动日志：

json格式数据

数据生成脚本：

公共字段AppBase，启动日志AppStart继承AppBase，错误日志AppErrorLog，AppLoading -- AppPraise
主函数：AppMain
打包：配置日志打印logback.xml，生成jar包，在linux下使用java调用

第4章数据采集模块

安装配置汇总https://blog.csdn.net/weixin_37680513/article/details/107737971

hadoop安装
- 项目经验：hdfs多目录配置，支持lzo压缩，hdfs读写基准测试，参数调优（namenode工作线程池数量，单个任务最大内存，单个map最大内存）
zookeeper安装
- linux环境变量：/etc/profile：用来设置系统环境参数，对所有用户生效，使用bash命令，需要source /etc/profile一下
  ~/.bashrc：针对某一特定的用户，只对该用户有效，使用bash命令，只要该用户运行命令就会读取该文件。
- 说明：登录式shell会自动加载/etc/profile，非登录式不会自动加载/etc/profile，会自动加载~/.bashrc（将/ect/profile追加到~/.bashrc中：cat /etc/profile >> ~/.bashrc），/etc/profile会加载/etc/profile.d下的所有.sh文件，所以一般将环境变量配置在/etc/profile.d/env.sh

日志生成
- nohup，&，不挂起运行，后台运行，nohup command >/dev/null 2>&1 &，
- ssh -t，ssh执行sudo命令时需要使用-t，禁止伪终端分配
安装flume
- source：Taildir Source 相比Exec Source、Spooling Directory Source 的优势：断点续传、多目录
- batchSize 大小：默认100，event 1k左右时，500-100合适
- Channel：采用Kafka Channel，省去了Sink，提高了效率。KafkaChannel 数据存储在Kafka 里面，所以数据是存储在磁盘中
- Flume 的ETL 和分类型拦截器：实现Interceptor接口，实现4个方法void initialize()，Event intercept(Event event)，List<Event> intercept(List<Event> events)，void close()，定义静态内部类继承Interceptor.Builder内部类，重写方法，构建自定义拦截器对象
kafka安装
- Kafka 机器数量（经验公式）=2*（峰值生产速度*副本数/100）+1
消费kafka数据flume
- FileChannel 和MemoryChannel 区别
- FileChannel，通过配置dataDirs 指向多个路径，每个路径对应不同的硬盘，增大Flume 吞吐量。checkpointDir 和backupCheckpointDir也尽量配置在不同硬盘对应的目录中，保证checkpoint 坏掉后，可以快速使用backupCheckpointDir 恢复数据
- sink：配置hdfs.rollInterval=3600，hdfs.rollSize=134217728，hdfs.rollCount =0减少hdfs小文件
- flume内存优化：jvm启动内存和最大内存设置为一致，避免内存抖动带来的性能影响，始化时内存不够会频繁触发fullgc
linux常用命令：
- top 查看内存情况
- df -h 查看磁盘存储情况
- iotop -o 查看磁盘IO情况
- netstat -tunlp | grep 端口号查看端口占用情况，t：tcp，u：udp，n：num，l：listening，p：process
- uptime 查看运行时长及平均负载
- ps -aux，ps -ef 查看所有进程

2 业务数据采集平台

第1章电商业务简介
第2章业务数据采集
- 安装MySQL，Sqoop
- 生成业务数据，使用Sqoop导入HDFS
第3章数据环境准备
- 安装Hive2.3
- 安装Hive运行引擎Tez（将多个依赖的job串联成一个job，中间结果不落盘）

3 电商数据仓库系统

第1章数仓分层
- ods，dwd，dws，dwt，ads
- ods为元数据，dwd层进行数据建模，dws和dwt都是建宽表，都是按主题建，ads层对主题指标进行分析，提供报表数据
- 分成多层，方便管理数据，把复杂问题简单化，每一层只处理单一的步骤，也容易定位出现的问题
第2章数仓理论
- 三范式：
- 关系建模（主要应用于OLTP（联机事务处理），冗余少，但在大规模数据中，多表关联效率低），
- 维度建模（主要应用于OLAP（联机分析处理），一般划分为事实表和维度表）
  - 星型模型（维度只有一层），雪花模型（比较接近三范式，但不完全是），星座模型（有多个事实表时）
- 维度表：一般是对事实的描述信息，多个属性，列比较多，行比较少，宽表
- 事实表：每一行代表一个业务事件，比如订单，列比较少，行比较多，高表
第3章数仓搭建ods层（原始数据层，存放原始数据，不做任何更改）
- 将orginal_data中的数据加载到ods层，按日期分区，一条数据整体是一个列
- 表（事件日志表）：ods_event_log
第4章数仓搭建dwd层（对ods层数据进行清洗过滤，维度退化等）
- 日志数据：建立各种明细表
- 解析事件日志需要自定义UDF，UDTF（一进多出，使用lateral view udtf() x as xx）
- 表（事件明细表）：ods_base_event_log，使用UDF，UDTF解析数据成基本字段和单个事件（字段event_name，event_json）
- 根据解析出来的事件，建立各种基础明细表，点击，评论，收藏等等，（前面是公共字段，后面是事件中的字段）
- 表（商品点击表）：ods_display_log
- 业务数据：建立各种维度表
第5章数仓搭建dws层（以dwd层为基础，进行按天进行轻度汇总，日活数据）
- collect_set()函数，将某一类合成一个set
- nvl(v1, v2)，v1为null则返回v2
- 日期处理函数：data_format(v1, v2)将v1改成v2格式，date_add(v1, 1)，next_dat()下一周的某一天，last_day()月末
- 用户行为表（日志）
- 表（每日用户行为）：将事件使用collect_set和concat_ws进行行转列，多行转成一列
- 用户行为表（业务）
第6章数仓搭建dwt层（以dws层为基础，按主题进行汇总）
- 设备主题、会员主题、商品主题等等
第7章数仓搭建ads层（为统计报表提供数据）
- 按主题提供报表统计数据（留存率（一段时间内还在的用户/当时新增用户））