电商数仓

1 用户行为数据采集

第1章 数据仓库的概念

数据仓库:为企业所有决策过程,提供所有数据支持的战略集合。包括对数据的清洗、分类、重组、合并、拆分、统计等等

第2 章 项目需求及架构设计

  • 项目需求:用户行为数据采集平台搭建,业务数据采集平台搭建,数据仓库维度建模,分析用户、流量、会员等核心主题
  • 项目框架:
    • 数据采集传输:flume, kafka, sqoop
    • 数据存储:mysql, hdfs
    • 数据计算:hive, tez
    • 任务调度:azkaban
  • 系统数据流程:
    • 业务数据从mysql -- sqoop -- HDFS
    • 用户行为数据logFile -- flume生产 -- kafka -- flume消费 -- HDFS
  • 版本:hadoop2.7.2,flume1.7.0,hive2.3
  • 集群资源规划:

第3章 数据生成模块

埋点数据格式:

  • json格式,用户行为数据包括事件日志和启动日志,都有公共字段,事件日志包含事件json数组,启动日志是单个json,里面et为start

事件日志:

  • 商品列表页(loading)、商品点击(display)、商品详情页(newsdetail)、广告(ad)、消息通知(notification)、用户后台活跃(active_background)、评论(comment)、收藏(favorites)、点赞(praise)、错误日志

启动日志:

  • json格式数据

数据生成脚本:

  • 公共字段AppBase,启动日志AppStart继承AppBase,错误日志AppErrorLog,AppLoading -- AppPraise
  • 主函数:AppMain
  • 打包:配置日志打印logback.xml,生成jar包,在linux下使用java调用

第4章 数据采集模块

安装配置汇总https://blog.csdn.net/weixin_37680513/article/details/107737971

  • hadoop安装
    • 项目经验:hdfs多目录配置,支持lzo压缩,hdfs读写基准测试,参数调优(namenode工作线程池数量,单个任务最大内存,单个map最大内存)
  • zookeeper安装
    • linux环境变量:/etc/profile:用来设置系统环境参数,对所有用户生效,使用bash命令,需要source /etc/profile一下
      ~/.bashrc:针对某一特定的用户,只对该用户有效,使用bash命令,只要该用户运行命令就会读取该文件。
    • 说明:登录式shell会自动加载/etc/profile,非登录式不会自动加载/etc/profile,会自动加载~/.bashrc(将/ect/profile追加到~/.bashrc中:cat /etc/profile >> ~/.bashrc),/etc/profile会加载/etc/profile.d下的所有.sh文件,所以一般将环境变量配置在/etc/profile.d/env.sh

  • 日志生成
  • 安装flume
    • source:Taildir Source 相比Exec Source、Spooling Directory Source 的优势:断点续传、多目录
    • batchSize 大小:默认100,event 1k左右时,500-100合适
    • Channel:采用Kafka Channel,省去了Sink,提高了效率。KafkaChannel 数据存储在Kafka 里面,所以数据是存储在磁盘中
    • Flume 的ETL 和分类型拦截器:实现Interceptor接口,实现4个方法void initialize(),Event intercept(Event event),List<Event> intercept(List<Event> events),void close(),定义静态内部类继承Interceptor.Builder内部类,重写方法,构建自定义拦截器对象
  • kafka安装
    • Kafka 机器数量(经验公式)=2*(峰值生产速度*副本数/100)+1
  • 消费kafka数据flume
    • FileChannel 和MemoryChannel 区别
    • FileChannel,通过配置dataDirs 指向多个路径,每个路径对应不同的硬盘,增大Flume 吞吐量。checkpointDir 和backupCheckpointDir也尽量配置在不同硬盘对应的目录中,保证checkpoint 坏掉后,可以快速使用backupCheckpointDir 恢复数据
    • sink:配置hdfs.rollInterval=3600,hdfs.rollSize=134217728,hdfs.rollCount =0减少hdfs小文件
    • flume内存优化:jvm启动内存和最大内存设置为一致,避免内存抖动带来的性能影响,始化时内存不够会频繁触发fullgc
  • linux常用命令:
    • top 查看内存情况
    • df -h 查看磁盘存储情况 
    • iotop -o 查看磁盘IO情况
    • netstat -tunlp | grep 端口号 查看端口占用情况,t:tcp,u:udp,n:num,l:listening,p:process
    • uptime 查看运行时长及平均负载
    • ps -aux,ps -ef 查看所有进程

2 业务数据采集平台

  • 第1章 电商业务简介
  • 第2章 业务数据采集
    • 安装MySQL,Sqoop
    • 生成业务数据,使用Sqoop导入HDFS
  • 第3章 数据环境准备
    • 安装Hive2.3
    • 安装Hive运行引擎Tez(将多个依赖的job串联成一个job,中间结果不落盘)

3 电商数据仓库系统

  • 第1章 数仓分层
    • ods,dwd,dws,dwt,ads
    • ods为元数据,dwd层进行数据建模,dws和dwt都是建宽表,都是按主题建,ads层对主题指标进行分析,提供报表数据
    • 分成多层,方便管理数据,把复杂问题简单化,每一层只处理单一的步骤,也容易定位出现的问题
  • 第2章 数仓理论
    • 三范式:
    • 关系建模(主要应用于OLTP(联机事务处理),冗余少,但在大规模数据中,多表关联效率低),
    • 维度建模(主要应用于OLAP(联机分析处理),一般划分为事实表和维度表)
      • 星型模型(维度只有一层),雪花模型(比较接近三范式,但不完全是),星座模型(有多个事实表时)
    • 维度表:一般是对事实的描述信息,多个属性,列比较多,行比较少,宽表
    • 事实表:每一行代表一个业务事件,比如订单,列比较少,行比较多,高表
  • 第3章 数仓搭建ods层(原始数据层,存放原始数据,不做任何更改)
    • 将orginal_data中的数据加载到ods层,按日期分区,一条数据整体是一个列
    • 表(事件日志表):ods_event_log
  • 第4章 数仓搭建dwd层(对ods层数据进行清洗过滤,维度退化等)
    • 日志数据:建立各种明细表
    • 解析事件日志需要自定义UDF,UDTF(一进多出,使用lateral view udtf() x as xx)
    • 表(事件明细表):ods_base_event_log,使用UDF,UDTF解析数据成基本字段和单个事件(字段event_name,event_json)
    • 根据解析出来的事件,建立各种基础明细表,点击,评论,收藏等等,(前面是公共字段,后面是事件中的字段)
    • 表(商品点击表):ods_display_log
    • 业务数据:建立各种维度表
  • 第5章 数仓搭建dws层(以dwd层为基础,进行按天进行轻度汇总,日活数据)
    • collect_set()函数,将某一类合成一个set
    • nvl(v1, v2),v1为null则返回v2
    • 日期处理函数:data_format(v1, v2)将v1改成v2格式,date_add(v1, 1),next_dat()下一周的某一天,last_day()月末
    • 用户行为表(日志)
    • 表(每日用户行为):将事件使用collect_set和concat_ws进行行转列,多行转成一列
    • 用户行为表(业务)
  • 第6章 数仓搭建dwt层(以dws层为基础,按主题进行汇总)
    • 设备主题、会员主题、商品主题等等
  • 第7章 数仓搭建ads层(为统计报表提供数据)
    • 按主题提供报表统计数据(留存率(一段时间内还在的用户/当时新增用户))

 

本教程为授权出品 一、课程简介 数据库(Data Warehouse,可简写为DW或DWH),是面向分析的集成化数据环境,为企业决策制定过程,提供系统数据支持的战略集合,是国内外各大公司正在重点投入的战略级技术领域。 二、课程内容 《大数据商数项目实战》视频教程,从项目架构的搭建,到数据采集模块的设计、数架构的设计、实战需求实现、即席查询的实现,我们针对国内目前广泛使用的Apache原生框架和CDH版本框架进行了分别介绍,Apache原生框架介绍中涉及到的技术框架包括Flume、Kafka、Sqoop、MySql、HDFS、Hive、Tez、Spark、Presto、Druid等,CDH版本框架讲解包括CM的安装部署、Hadoop、Zookeeper、Hive、Flume、Kafka、Oozie、Impala、HUE、Kudu、Spark的安装配置,透彻了解不同版本框架的区别联系,将大数据全生态系统前沿技术一网打尽。在过程中对大数据生态体系进行了系统的讲解,对实际企业数项目中可能涉及到的技术点都进行了深入的讲解和探讨。同时穿插了大量数基础理论知识,让你在掌握实战经验的同时能够打下坚实的理论基础。 三、课程目标 本课程以国内商巨头实际业务应用场景为依托,对商数的常见实战指标以及难点实战指标进行了详尽讲解,具体指标包括:每日、周、月活跃设备明细,留存用户比例,沉默用户、回流用户、流失用户统计,最近连续3周活跃用户统计,最近7天内连续3天活跃用户统计,GMV成交总额分析,转化率及漏斗分析,品牌复购率分析、订单表拉链表的设计等,让学生拥有更直观全面的实战经验。通过对本课程的学习,对数项目可以建立起清晰明确的概念,系统全面的掌握各项数项目技术,轻松应对各种数难题。 四、课程亮点 本课程结合国内多家企业实际项目经验,特别加入了项目架构模块,从集群规模的确定到框架版本选型以及服务器选型,手把手教你从零开始搭建大数据集群。并且总结大量项目实战中会遇到的问题,针对各个技术框架,均有调优实战经验,具体包括:常用Linux运维命令、Hadoop集群调优、Flume组件选型及性能优化、Kafka集群规模确认及关键参数调优。通过这部分学习,助学生迅速成长,获取前沿技术经验,从容解决实战问题。
©️2020 CSDN 皮肤主题: 游动-白 设计师:上身试试 返回首页