电商数仓6.0
文章平均质量分 88
电商数仓6.0架构搭建,包含离线、实时
施小赞
人生苦短,我爱编程
展开
-
HBase
安装包:链接:提取码: 5up7。原创 2024-09-09 23:37:39 · 201 阅读 · 0 评论 -
11、Hive+Spark数仓环境准备
1)把hive-3.1.3.tar.gz上传到linux的/opt/software目录下2)解压hive-3.1.3.tar.gz到/opt/module/目录下面3)修改hive-3.1.3-bin.tar.gz的名称为hive4)修改/etc/profile.d/my_env.sh,添加环境变量添加内容重启Xshell对话框或者source一下 /etc/profile.d/my_env.sh文件,使环境变量生效。5)解决日志Jar包冲突,进入/opt/module/hive/lib目录。原创 2024-09-09 23:26:41 · 484 阅读 · 0 评论 -
10、业务数据同步
数据同步工具种类繁多,大致可分为两类,一类是以DataX、Sqoop为代表的基于Select查询的离线、批量同步工具,另一类是以Maxwell、Canal为代表的基于数据库数据变更日志(例如MySQL的binlog,其会实时记录所有的insert、update以及delete操作)的实时流式同步工具。全量同步通常使用DataX、Sqoop等基于查询的离线同步工具。而增量同步既可以使用DataX、Sqoop等工具,也可使用Maxwell、Canal等工具,下面对增量同步不同方案进行简要对比。增量同步方案。原创 2024-09-09 22:49:41 · 698 阅读 · 0 评论 -
9、DataX部署
DataX的使用十分简单,用户只需根据自己同步数据的数据源和目的地选择相应的Reader和Writer,并将Reader和Writer的信息配置在一个json文件中,然后执行如下命令提交数据同步任务即可。原创 2024-09-09 21:49:41 · 558 阅读 · 0 评论 -
8、用户行为数据同步
按照规划,该Flume需将Kafka中topic_log的数据发往HDFS。并且对每天产生的用户行为日志进行区分,将不同天的数据发往HDFS不同天的路径。此处选择KafkaSource、FileChannel、HDFSSink。原创 2024-09-09 21:29:28 · 491 阅读 · 0 评论 -
7、Maxwell业务数据采集模块
Maxwell 是由美国Zendesk公司开源,用Java编写的MySQL变更数据抓取软件。它会实时监控MySQL数据库的数据变更操作(包括insert、update、delete),并将变更数据以 JSON 格式发送给 Kafka、Kinesi等流数据处理平台。原创 2024-09-09 21:23:17 · 295 阅读 · 0 评论 -
6、Flume安装
按照规划,需要采集的用户行为日志文件存放在hadoop102,故需要在该节点配置日志采集Flume。日志采集Flume需要采集日志文件内容,并对日志格式(JSON)进行校验,然后将校验通过的日志发送到Kafka。此处可选择TaildirSource和KafkaChannel,并配置日志校验拦截器。选择TailDirSource和KafkaChannel的原因如下:TailDirSource相比ExecSource、SpoolingDirectorySource的优势。原创 2024-09-09 21:12:01 · 441 阅读 · 0 评论 -
5、Kafka
hadoop102hadoop103hadoop104zkzkzkkafkakafkakafka0)官方下载地址:Apache Kafka1)上传并解压安装包2)修改解压后的文件名称3)进入到/opt/module/kafka目录,修改配置文件输入以下内容:4)分发安装包5)分别在hadoop103和hadoop104上修改配置文件/opt/module/kafka/config/server.properties中的broker.id及advertised.listeners原创 2024-09-09 20:30:47 · 652 阅读 · 0 评论 -
4、Zookeeper
1)集群规划在hadoop102、hadoop103和hadoop104三个节点上部署Zookeeper。服务器hadoop102服务器hadoop103服务器hadoop104ZookeeperZookeeperZookeeperZookeeper2)解压安装(1)解压Zookeeper安装包到/opt/module/目录下(2)修改/opt/module/apache-zookeeper-3.7.1-bin名称为zookeeper-3.7.13)配置服务器编号。原创 2024-09-09 20:15:37 · 383 阅读 · 0 评论 -
3、Hadoop部署
1)集群部署规划注意:NameNode和SecondaryNameNode不要安装在同一台服务器注意:ResourceManager也很消耗内存,不要和NameNode、SecondaryNameNode配置在同一台机器上。hadoop102hadoop103hadoop104HDFSNameNodeDataNodeDataNodeDataNodeYARN2)将hadoop3.3.4.tar.gz导入到opt目录下面的software文件夹下面3)进入到Hadoop安装包路径下。原创 2024-09-09 10:10:14 · 723 阅读 · 0 评论 -
2、数据模拟
1)将application.yml、gmall-remake-mock-2023-05-15-3.jar、path.json、logback.xml上传到hadoop102的/opt/module/applog目录下(1)创建applog路径(2)上传文件到/opt/module/applog目录2)配置文件(1)application.yml文件可以根据需求生成对应日期的用户行为日志。修改如下内容(2)path.json,该文件用来配置访问路径根据需求,可以灵活配置用户点击路径。原创 2024-09-09 09:30:03 · 359 阅读 · 0 评论 -
1、技术选型与前期准备
注意事项:框架选型尽量不要选择最新的框架,选择最新框架半年前左右的稳定版。框架旧版本新版本Hadoop3.1.33.3.4Zookeeper3.5.73.7.1MySQL5.7.168.0.31Hive3.1.23.1.3(修改源码)Flume1.9.01.10.1Kafka3.0.03.3.1Spark3.0.03.3.1DataX3.03.0(master分支向前,修改源码)Superset1.5.32.0.01.3.92.0.5。原创 2024-09-09 08:36:39 · 994 阅读 · 0 评论