大数据最全离线电商数仓知识笔记沉淀-流程及用户行为采集平台(1)

最新推荐文章于 2024-05-30 10:00:19 发布

2401_84183726

最新推荐文章于 2024-05-30 10:00:19 发布

阅读量685

点赞数 24

分类专栏：程序员文章标签：大数据笔记

本文链接：https://blog.csdn.net/2401_84183726/article/details/138433633

版权

程序员专栏收录该内容

120 篇文章 0 订阅

订阅专栏

统计分析的基本步骤：

数据源——对接并加工数据——统计数据（算一下）——分析数据

数据仓库也应遵循这个步骤

数据存储————数据可视化

如果将数据库直接作为数据仓库的数据源会出现的问题：

1.业务数据库为行式存储，而数据仓库是列式存储，数据不能直接对接——需要把行式数据转化为列式数据

2.业务数据库中存储的数据不是海量，但数仓要求海量，所以直接对接数据量不够

3.数据库不是为了数据仓库服务的，访问会对数据库造成性能影响

**所以数据仓库应该设计一个自己的数据源，为了代替和补充数据库：**数据存储应和数据库同步的（汇总）

数据仓库的开发用SQL语言进行处理，那么数据的处理步骤应该采用什么方法？

需要将数据转化为结构数据——表，且每一步都有表（应对多需求，类似缓存）

数据仓库的数据源数据需要从数据库中周期性同步，一般将这个同步过程称之为采集

若数据采集时，如果想要将数据同步到数据仓库的数据源，那么就必须知道表结构

那么采集项目和数据仓库项目就会存在耦合性，但二者应有独立性

所以实际开发中，需要将采集项目和数仓项目解耦合↓

数据存储—— HDFS（解耦合）——数据仓库数据源

原理：data&file——HDFS（file）—— hive（table）=> HDFS（file）（hive将磁盘文件管理成表），如果不选择hive，解耦合用hdfs就未必合适↓

数据存储（MySQL）—— 数据采集（DataX,Maxwell(data—file),Flume（file—file））——HDFS（解耦合）——数据仓库数据源

数据采集部分

数仓部分

数仓尾巴（Hive）— MySQL （解耦合）— 数据可视化

集群资源规划

1）生产集群（参考腾讯云EMR官方推荐部署

Master节点：管理节点，保证集群的调度正常运行；主要部署NameNode, ResourceManager, HMaster等进程；非HA模式下数量为1，HA模式数量为2。

注：HA模式-------------------

在数据仓库（Data Warehouse）搭建中，“HA” 模式通常指的是高可用性（High Availability）模式。高可用性是指系统能够在面对硬件故障、软件故障或其他可预见的事件时保持持续运行而不中断服务的能力。

在数据仓库的环境中，高可用性模式可以确保数据仓库系统的稳定性和可靠性，以确保业务的持续运行和数据的安全性。一般来说，实现高可用性模式需要采取多种技术手段，包括但不限于：

故障转移（Failover）：在主节点（Primary Node）出现故障时，系统能够自动切换到备用节点（Secondary Node）以保持服务的连续性。
负载均衡（Load Balancing）：将流量分发到多个节点上，以防止某个节点过载，从而提高整个系统的稳定性和性能。
数据复制（Data Replication）：将数据复制到多个节点上，以确保即使某个节点发生故障，数据仍然可以从其他节点获取，确保数据的可用性和一致性。
监控和自动恢复（Monitoring and Automatic Recovery）：实时监控系统的运行状况，当检测到异常时，自动触发相应的恢复机制，尽快恢复服务。
灾难恢复（Disaster Recovery）：建立备份系统或数据中心，以应对灾难性事件，确保即使整个数据中心或系统发生严重故障，业务也能够在短时间内恢复运行。

高可用性模式在数据仓库中尤为重要，因为数据仓库通常承载着企业的重要业务数据和决策支持信息。通过采取高可用性措施，可以最大限度地减少系统停机时间，提高业务连续性和数据安全性。

Core节点：为计算及存储节点，在HDFS中的数据全部存储于core节点中，因为为保证数据安全，扩容Core节点后不允许缩容；主要部署DataNode, NodeManager, RegionServer等进程。非HA>=2, HA>=3。

Common节点：为HA集群Master节点提供数据共享同步已经高可用容错服务；主要部署分布式协调器组件，如ZooKeeper，JournalNode等节点，非HA为0，HA>=3。

消耗内存的分开部署

数据传输数据比较紧密的放在一起（Kafka，ClickHouse）

客户端尽量放到一到两台服务器上，方便外部访问

有依赖关系的尽量放到同一台服务器（如：Ds-worker和Hive/Spark）


Master	Master	core	core	core	common	common	common
nn	nn	dn	dn	dn	JournalNode	JournalNode	JournalNode
r****m	rm	nm	nm	nm
					zk	zk	zk
hive	hive	hive	hive	hive
		kafka	kafka	kafka
spark	spark	spark	spark	spark
datax	datax	datax	datax	datax
Ds**-master**	Ds-master	Ds-worker	Ds-worker	Ds-worker
maxwell
superset
mysql
flume	flume
flink	flink
		clickhouse
			redis
h****base

2）测试********集群服务器规划


服务****名称	子****服务	服务器 hadoop102	服务器 hadoop103	服务器 hadoop104
HDFS	NameNode	√
DataNode	√	√	√
SecondaryNameNode			√
Yarn	NodeManager	√	√	√
Resourcemanager		√
Zookeeper	Zookeeper Server	√	√	√
Flume（采集日志**）**	Flume	√	√
Kafka	Kafka	√	√	√
Flume （消费Kafka日志）	Flume			√
Flume （消费Kafka业务）	Flume			√
Hive		√	√	√
My****SQL	MySQL	√
DataX		√	√	√
S****park		√	√	√
DolphinScheduler	ApiApplicationServer	√
AlertServer	√
MasterServer	√
WorkerServer	√	√	√
LoggerServer	√	√	√
S****uperset	Superset	√
Flink		√
ClickHouse		√
Redis		√
Hbase		√
服务****数总计		2****0	11	12

用户行为日志

包括用户的各项行为信息以及行为所处的环境信息，收集手段通常为埋点。

主流埋点方式：代码埋点、可视化埋点、全埋点

用户行为日志内容：

本项目收集和分析的用户行为信息主要有页面浏览记录、动作记录、曝光记录、启动记录和错误记录

页面浏览记录：记录的是访客对页面的浏览行为，该行为的环境信息主要有用户信息、时间信息、地理位置信息、设备信息、应用信息、渠道信息及页面信息等。

动作记录：记录的是用户的业务操作行为，该行为的环境信息主要有用户信息、时间信息、地理位置信息、设备信息、应用信息、渠道信息及动作目标对象信息等。

曝光记录：记录的是曝光行为，该行为的环境信息主要有用户信息、时间信息、地理位置信息、设备信息、应用信息、渠道信息及曝光对象信息等。

启动记录：记录的是用户启动应用的行为，该行为的环境信息主要有用户信息、时间信息、地理位置信息、设备信息、应用信息、渠道信息、启动类型及开屏广告信息等。

错误记录：记录的是用户在使用应用过程中的报错行为，该行为的环境信息主要有用户信息、时间信息、地理位置信息、设备信息、应用信息、渠道信息、以及可能与报错相关的页面信息、动作信息、曝光信息和动作信息。

日志格式：大致分两类：页面日志和启动日志

页面日志：以页面浏览为单位，即一个页面浏览记录，生成一条页面埋点日志。一条完整的页面日志包含，一个页面浏览记录，若干个用户在该页面所做的动作记录，若干个该页面的曝光记录，以及一个在该页面发生的报错记录。除上述行为信息，页面日志还包含了这些行为所处的各种环境信息，包括用户信息、时间信息、地理位置信息、设备信息、应用信息、渠道信息等。

{
	"common": {                     -- 环境信息
		"ar": "15",                 -- 省份ID
		"ba": "iPhone",             -- 手机品牌
		"ch": "Appstore",           -- 渠道
		"is_new": "1",              -- 是否首日使用，首次使用的当日，该字段值为1，过了24:00，该字段置为0。
		"md": "iPhone 8",           -- 手机型号
		"mid": "YXfhjAYH6As2z9Iq",  -- 设备id
		"os": "iOS 13.2.9",         -- 操作系统
		"sid": "3981c171-558a-437c-be10-da6d2553c517"     -- 会话id
		"uid": "485",               -- 会员id
		"vc": "v2.1.134"            -- app版本号
	},
	"actions": [{                   -- 动作(事件)
		"action_id": "favor_add",   -- 动作id
		"item": "3",                -- 目标id
		"item_type": "sku_id",      -- 目标类型
		"ts": 1585744376605         -- 动作时间戳
	    }
	],
	"displays": [{                  -- 曝光
			"displayType": "query", -- 曝光类型
			"item": "3",            -- 曝光对象id
			"item_type": "sku_id",  -- 曝光对象类型
			"order": 1,             -- 出现顺序
			"pos_id": 2             -- 曝光位置
	"pos_seq": 1             -- 曝光序列号（同一坑位多个对象的编号）
		},
		{
			"displayType": "promotion",
			"item": "6",
			"item_type": "sku_id",
			"order": 2,
			"pos_id": 1
            "pos_seq": 1
		},
		{
			"displayType": "promotion",
			"item": "9",
			"item_type": "sku_id",
			"order": 3,
			"pos_id": 3
            "pos_seq": 1
		},
		{
			"displayType": "recommend",
			"item": "6",
			"item_type": "sku_id",
			"order": 4,
			"pos_id": 2
	"pos_seq": 1
		},
		{
			"displayType": "query ",
			"item": "6",
			"item_type": "sku_id",
			"order": 5,
			"pos_id": 1
	"pos_seq": 1
		}
	],
	"page": {                          -- 页面信息
		"during_time": 7648,           -- 持续时间毫秒
		"item": "3", 	               -- 目标id
		"item_type": "sku_id",         -- 目标类型
		"last_page_id": "login",       -- 上页ID
		"page_id": "good_detail",      -- 页面ID
		"from_pos_id":999,           -- 来源坑位ID
"from_pos_seq":999,           -- 来源坑位序列号
"refer_id":"2",			  -- 外部营销渠道ID
		"sourceType": "promotion"      -- 来源类型
	},                                 
	"err": {                           --错误
		"error_code": "1234",          --错误码
		"msg": "***********"           --错误信息
	},                                 
	"ts": 1585744374423                --跳入时间戳
}

启动日志：以启动为单位，及一次启动行为，生成一条启动日志。一条完整的启动日志包括一个启动记录，一个本次启动时的报错记录，以及启动时所处的环境信息，包括用户信息、时间信息、地理位置信息、设备信息、应用信息、渠道信息等。

{
  "common": {
    "ar": "370000",
    "ba": "Honor",
    "ch": "wandoujia",
    "is_new": "1",
    "md": "Honor 20s",
    "mid": "eQF5boERMJFOujcp",
"os": "Android 11.0",
"sid":"a1068e7a-e25b-45dc-9b9a-5a55ae83fc81"
    "uid": "76",
    "vc": "v2.1.134"
  },
  "start": {   
"entry": "icon",         --icon手机图标  notice 通知   install 安装后启动
    "loading_time": 18803,  --启动加载时间
    "open_ad_id": 7,        --广告页ID
    "open_ad_ms": 3449,    -- 广告总共播放时间
    "open_ad_skip_ms": 1989   --  用户跳过广告时点
  },
"err":{                     --错误
"error_code": "1234",      --错误码
    "msg": "***********"       --错误信息
},
  "ts": 1585744304000
}

服务器和JDK准备

配置hadoop102、hadoop103、hadoop104三台主机（问题及Hadoop相关另行总结）

编写集群分发脚本xsync

1）xsync集群分发脚本

需求：循环复制文件到所有节点的相同目录下

需求分析：

①rsync命令原始拷贝

rsync  -av     /opt/module  		 root@hadoop103:/opt/

②期望脚本：xsync要同步的文件名称

③说明：在/home/atguigu/bin这个目录下存放的脚本，atguigu用户可以在系统任何地方直接执行。

[atguigu@hadoop102 ~]$ echo $PATH
/usr/local/bin:/usr/bin:/usr/local/sbin:/usr/sbin:/home/atguigu/.local/bin:/home/atguigu/bin

脚本实现：

①在用的家目录/home/atguigu下创建bin文件夹

[atguigu@hadoop102 ~]$ mkdir bin

②在/home/atguigu/bin目录下创建xsync文件，以便全局调用

[atguigu@hadoop102 ~]$ cd /home/atguigu/bin
[atguigu@hadoop102 ~]$ vim xsync

在该文件中编写如下代码

#!/bin/bash

#1. 判断参数个数
if [ $# -lt 1 ]
then
  echo Not Enough Arguement!
  exit;
fi

#2. 遍历集群所有机器
for host in hadoop102 hadoop103 hadoop104
do
  echo ====================  $host  ====================
  #3. 遍历所有目录，挨个发送
  for file in $@
  do
    #4 判断文件是否存在
    if [ -e $file ]
    then
      #5. 获取父目录
      pdir=$(cd -P $(dirname $file); pwd)
      #6. 获取当前文件的名称
      fname=$(basename $file)
      ssh $host "mkdir -p $pdir"
      rsync -av $pdir/$fname $host:$pdir
    else
      echo $file does not exists!
    fi
  done
done

③修改脚本xsync具有执行权限

[atguigu@hadoop102 bin]$ chmod 777 xsync

④测试脚本

atguigu@hadoop102 bin]$ xsync xsync

SSH无密登录配置

说明：这里面只配置了hadoop102、hadoop103到其他主机的无密登录；因为hadoop102配置的是NameNode，hadoop103配置的是ResourceManager，都要求对其他节点无密访问。

1）hadoop102上生成公钥和私钥：

[atguigu@hadoop102 .ssh]$ ssh-keygen -t rsa

然后敲（三个回车），就会生成两个文件id_rsa（私钥）、id_rsa.pub（公钥）。

2）将hadoop102公钥拷贝到要免密登录的目标机器上

[atguigu@hadoop102 .ssh]$ ssh-copy-id hadoop102
[atguigu@hadoop102 .ssh]$ ssh-copy-id hadoop103
[atguigu@hadoop102 .ssh]$ ssh-copy-id hadoop104

3）hadoop103上生成公钥和私钥：

[atguigu@hadoop103 .ssh]$ ssh-keygen -t rsa

4）拷贝操作亦同hadoop102

JDK准备

1）卸载三台节点上的现有JDK

[atguigu@hadoop102 opt]# sudo rpm -qa | grep -i java | xargs -n1 sudo rpm -e --nodeps

[atguigu@hadoop103 opt]# sudo rpm -qa | grep -i java | xargs -n1 sudo rpm -e --nodeps

[atguigu@hadoop104 opt]# sudo rpm -qa | grep -i java | xargs -n1 sudo rpm -e --nodeps

操作批注：

（1）rpm -qa：表示查询所有已经安装的软件包

（2）grep -i：表示过滤时不区分大小写

（3）xargs -n1：表示一次获取上次执行结果的一个值

（4）rpm -e --nodeps：表示卸载软件

2）用XShell工具将JDK导入到hadoop102的****/opt/****software文件夹下面

3）在Linux系统下的opt目录查看是否导入成功（ls）

4）解压JDK到****/opt/module目录下****（tar）

[atguigu@hadoop102 software]# tar -zxvf jdk-8u212-linux-x64.tar.gz -C /opt/module/

[atguigu@hadoop102 module]$ mv jdk1.8.0_212/ jdk-1.8.0

5）配置JDK环境变量

（1）新建/etc/profile.d/my_env.sh文件（在module下sudo vim）

添加如下内容，然后保存（:wq）退出。

#JAVA_HOME
export JAVA_HOME=/opt/module/jdk-1.8.0
export PATH=$PATH:$JAVA_HOME/bin

（2）让环境变量生效

[atguigu@hadoop102 software]$ source /etc/profile.d/my_env.sh

6）测试安装是否成功（java -version）

7）分发JDK（执行刚才的xsync脚本）

[atguigu@hadoop102 module]$ xsync /opt/module/jdk-1.8.0

8）分发环境变量配置文件

[atguigu@hadoop102 module]$ sudo /home/atguigu/bin/xsync /etc/profile.d/my_env.sh

9）在hadoop103，hadoop104上分别执行source

环境变量配置说明

Linux的环境变量可在多个文件中配置，如/etc/profile，/etc/profile.d/*.sh，_/.bashrc，/.bash_profile等，下面说明上述几个文件之间的关系和区别。

bash的运行模式可以分为 login shell 和 non-login shell

（例如，我们通过终端，输入用户名、密码，登录系统之后，得到就是一个login shell。而当我们执行以下命令ssh hadoop103 command，在hadoop103执行command的就是一个non-login shell。）

这两种shell的主要区别在于，它们启动时会加载不同的配置文件，login shell启动时会加载/etc/profile，_{/.bash_profile，}/.bashrc。non-login shell启动时会加载~/.bashrc。

数据模拟

1）将application.yml、gmall-remake-mock-2023-02-17.jar、path.json、logback.xml上传到hadoop102的/opt/module/applog目录下（需要 mkdir创建）

2）配置文件

①application.yml文件：可以根据需求生成对应日期的用户行为日志

vim出文件后修改内容（照搬尚硅谷，太繁琐。。）

# 外部配置打开
logging.config: ./logback.xml


#http模式下，发送的地址
mock:
  log:
    type: "file"      #"file" "http" "kafka" "none"
    http:
      url: "http://localhost:8090/applog"
    kafka:
        server: "hadoop102:9092,hadoop102:9092,hadoop102:9092"
        topic: "topic_log"

spring:
    datasource:
      type: com.alibaba.druid.pool.DruidDataSource
      druid:
        url: jdbc:mysql://hadoop102:3306/gmall?characterEncoding=utf-8&allowPublicKeyRetrieval=true&useSSL=false&serverTimezone=GMT%2B8
        username: root
        password: "000000"
        driver-class-name:  com.mysql.cj.jdbc.Driver
        max-active: 20
        test-on-borrow: true


mybatis-plus.global-config.db-config.field-strategy: not_null
mybatis-plus:
  mapper-locations: classpath:mapper/*.xml

mybatis:
   mapper-locations: classpath:mapper/*.xml

#业务日期， 并非Linux系统时间的日期，而是生成模拟数据的日期
mock.date: "2022-06-08"

# 日志是否写入数据库一份  写入z_log表中
mock.log.db.enable: 1

# 清空
mock.clear.busi: 1

# 清空用户
mock.clear.user: 0

# 批量生成新用户
mock.new.user: 0
  #session次数
mock.user-session.count: 200
  #设备最大值
mock.max.mid: 1000000

# 是否针对实时生成数据，若启用（置为1）则数据的 yyyy-MM-dd 与 mock.date 一致而 HH:mm:ss 与系统时间一致；若禁用则数据的 yyyy-MM-dd 与 mock.date 一致而 HH:mm:ss 随机分布，此处禁用
mock.if-realtime: 0
#访问时间分布权重
mock.start-time-weight: "10:5:0:0:0:0:5:5:5:10:10:15:20:10:10:10:10:10:20:25:30:35:30:20"

#支付类型占比 支付宝 ：微信 :银联
mock.payment_type_weight: "40:50:10"

  #页面平均访问时间
mock.page.during-time-ms: 20000
  #错误概率 百分比
mock.error.rate: 3
  #每条日志发送延迟 ms
mock.log.sleep: 100
  #课程详情来源  用户查询，商品推广，智能推荐, 促销活动
mock.detail.source-type-rate: "40:25:15:20"

mock.if-cart-rate: 100

mock.if-favor-rate: 70

mock.if-order-rate: 100

mock.if-refund-rate: 50



  #搜索关键词
mock.search.keyword: "java,python,多线程,前端,数据库,大数据,hadoop,flink"


  #用户数据变化概率
mock.user.update-rate: 20


# 男女浏览品牌比重（11 品牌)
mock.tm-weight.male: "3:2:5:5:5:1:1:1:1:1:1"
mock.tm-weight.female: "1:5:1:1:2:2:2:5:5:5:5"


# 外连类型比重（5 种）
mock.refer-weight: "10:2:3:4:5"

# 线程池相关配置
mock.pool.core: 20
mock.pool.max-core: 100

②path.json, 用来配置访问路径，根据需求可以灵活配置用户点击路径

[
  {"path":["start_app","home", "search", "good_list","good_detail","good_detail" ,"good_detail","cart","order","payment","mine","order_list","end"],"rate":100 },
  {"path":["start_app","home", "good_list","good_detail","good_detail" ,"good_detail","cart","end"],"rate":30 },
  {"path":["start_app","home", "activity1111","good_detail"  ,"cart","good_detail","cart","order","payment","end"],"rate":30 },
  {"path":[ "activity1111","good_detail" ,"activity1111" ,"good_detail","order","payment","end"],"rate":200 },
  {"path":[ "start_app","home" ,"activity1111" ,"good_detail","order","payment","end"],"rate":200 },
  {"path":[ "start_app","home" , "good_detail","order","payment","end"],"rate":30 },
  {"path":[  "good_detail","order","payment","end"],"rate":650 },
  {"path":[  "good_detail"  ],"rate":30 },
  {"path":[  "start_app","home","mine","good_detail"  ],"rate":30 },
  {"path":[  "start_app","home", "good_detail","good_detail","good_detail","cart","order","payment","end"  ],"rate":200 },
  {"path":[  "start_app","home", "search","good_list","good_detail","cart","order","payment","end"  ],"rate":200 }
]

③logback配置文件，可配置日志生成路径

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化资料的朋友，可以戳这里获取

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

d"],“rate”:650 },
{“path”:[ “good_detail” ],“rate”:30 },
{“path”:[ “start_app”,“home”,“mine”,“good_detail” ],“rate”:30 },
{“path”:[ “start_app”,“home”, “good_detail”,“good_detail”,“good_detail”,“cart”,“order”,“payment”,“end” ],“rate”:200 },
{“path”:[ “start_app”,“home”, “search”,“good_list”,“good_detail”,“cart”,“order”,“payment”,“end” ],“rate”:200 }
]


③logback配置文件，可配置日志生成路径



[外链图片转存中...(img-2eNgiGEI-1714778607948)]
[外链图片转存中...(img-q4wHM8od-1714778607948)]

**网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。**

**[需要这份系统化资料的朋友，可以戳这里获取](https://bbs.csdn.net/topics/618545628)**


**一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！**

2401_84183726

关注

24
点赞
踩
29

收藏

觉得还不错? 一键收藏
0
评论
大数据最全离线电商数仓知识笔记沉淀-流程及用户行为采集平台(1)

统计分析的基本步骤：数据源——对接并加工数据——统计数据（算一下）——分析数据数据仓库也应遵循这个步骤数据存储————数据可视化1.业务数据库为行式存储，而数据仓库是列式存储，数据不能直接对接——需要把行式数据转化为列式数据2.业务数据库中存储的数据不是海量，但数仓要求海量，所以直接对接数据量不够3.数据库不是为了数据仓库服务的，访问会对数据库造成性能影响**所以数据仓库应该设计一个自己的数据源，为了代替和补充数据库：**数据存储应和数据库同步的（汇总）
复制链接

扫一扫