2024年甘肃省职业院校技能大赛高职组“大数据应用开发”赛题③

旺仔Sec

于 2024-07-07 15:37:01 发布

阅读量342

点赞数 12

分类专栏： # 大数据应用开发竞赛试题文章标签：大数据

本文链接：https://blog.csdn.net/qq_50377269/article/details/140247042

版权

大数据应用开发竞赛试题专栏收录该内容

49 篇文章 10 订阅

订阅专栏

2024年甘肃省职业院校技能大赛高职组“大数据应用开发”赛题③

文章目录

- 2024年甘肃省职业院校技能大赛高职组“大数据应用开发”赛题③

背景描述

大数据时代背景下，电商经营模式发生很大改变。在传统运营模式中，缺乏数据积累，人们在做出一些决策行为过程中，更多是凭借个人经验和直觉，发展路径比较自我封闭。而大数据时代，为人们提供一种全新的思路，通过大量的数据分析得出的结果将更加现实和准确。商家可以对客户的消费行为信息数据进行收集和整理，比如消费者购买产品的花费、选择产品的渠道、偏好产品的类型、产品回购周期、购买产品的目的、消费者家庭背景、工作和生活环境、个人消费观和价值观等。通过数据追踪，知道顾客从哪儿来，是看了某网站投放的广告还是通过朋友推荐链接，是新访客还是老用户，喜欢浏览什么产品，购物车有无商品，是否清空，还有每一笔交易记录，精准锁定一定年龄、收入、对产品有兴趣的顾客，对顾客进行分组、标签化，通过不同标签组运用，获得不同目标群体，以此开展精准推送。
因数据驱动的零售新时代已经到来，没有大数据，我们无法为消费者提供这些体验，为完成电商的大数据分析工作，你所在的小组将应用大数据技术，以 Scala、Java 作为整个项目的基础开发语言，基于大数据平综利用Spark、Flink、Vue.js 等技术，对数据进行处理、分析及可视化呈现，你们作为该小组的技术人员，请按照下面任务完成本次工作。

模块 A：大数据平台搭建（容器环境）（10 分）

环境说明：服务端登录地址详见各模块服务端说明。补充说明：宿主机可通过Asbru 工具或SSH 客户端进行SSH 访问；
相关软件安装包在容器Master 节点的/opt/software 目录下，请选择对应的安装包进行安装，用不到的可忽略；
所有模块中应用命令必须采用绝对路径；进入Master 节点的方式为 docker exec -it master
/bin/bash进入Slave1 节点的方式为 docker exec -it slave1 /bin/bash进入Slave2
节点的方式为 docker exec -it slave2 /bin/bash 三个容器节点的root 密码均为 123456

任务一：Hadoop 完全分布式安装配置

本环节需要使用 root 用户完成相关配置，安装 Hadoop 需要配置前置环境。命令中要求使用绝对路径，具体部署要求如下:
1、将容器 Master 节点 JDK 安装包解压并移动到/opt/module 路径中(若路径不存在，则需新建)，将命令复制并粘贴至客户端桌面【Release\模块 A 提交结果.docx】中对应的任务序号下；
2、修改/etc/profile 文件，设置 JDK 环境变量，配置完毕后在 master 节点分别执行“java -version”和“javac”命令，将命令行执行结果分别截图并粘贴至客户端桌面【Release\模块 A 提交结果.docx】中对应的任务序号下；

3、请完成 host 相关配置，将三个节点分别命名为 master、slave1、slave2，并做免密登录，用 scp 命令并使用绝对路径从 master 复制 JDK 解压后的安装文件到 slave1、slave2 节点（若路径不存在，则需新建），并配置 slave1、 slave2 相关环境变量，将全部复制命令复制并粘贴至客户端桌面【Release\模块 A 提交结果.docx】中对应的任务序号下；
4、在容器 Master 将 Hadoop 解压到/opt/module(若路径不存在，则需新建)目录下，并将解压包分发至 slave1、slave2 中，其中 master、slave1、slave2节点均作为 datanode，配置好相关环境，初始化 Hadoop 环境 namenode，将初始化命令及初始化结果截图（截取初始化结果结束倒数 20 行即可）复制粘贴至客户端桌面【Release\模块 A 提交结果.docx】中对应的任务序号下；
5、启动 Hadoop 集群（包括 hdfs 和 yarn），使用 jps 命令查看 master 节点与 slave1 节点的 java 进程，将 jps 命令与结果截图复制粘贴至客户端桌面【Release\模块 A 提交结果.docx】中对应的任务序号下。

任务二：Kafka 安装配置

本任务需要使用 root 用户完成相关配置，需要配置前置环境，具体要求如下：
1、从宿主机/opt 目录下将文件 apache-zookeeper-3.5.7-bin.tar.gz 、 kafka_2.12-2.4.1.tgz 复制到容器 Master 中的/opt/software 路径中（若路径不存在，则需新建），将 Master 节点 Zookeeper，Kafka 安装包解压到
/opt/module 目录下，将 Kafka 解压命令复制并粘贴至客户端桌面【Release\模块 A 提交结果.docx】中对应的任务序号下；
2、配置好 ZooKeeper，其中 ZooKeeper 使用集群模式，分别将 Master、slave1、 slave2 作为其节点（若 ZooKeeper 已安装配置好，则无需再次配置），配置好 Kafka 的环境变量，使用 kafka-server-start.sh --version 查看 Kafka的版本内容，并将命令和结果截图粘贴至客户端桌面【Release\模块 A 提交结果.docx】中对应的任务序号下；
3、完善其他配置并分发 Kafka 文件到 slave1、slave2 中，并在每个节点启动Kafka，创建 Topic，其中 Topic 名称为 installtopic，分区数为 2，副本数为 2，将创建命令和创建成果截图粘贴至客户端桌面【Release\模块 A 提交结果.docx】中对应的任务序号下。

模块 B：数据采集（15 分）

环境说明：服务端登录地址详见模块服务端说明。补充说明：节点可通过Asbru 工具或SSH 客户端进行SSH 访问；主节点MySQL
数据库用户名/密码：root/123456（已配置远程连接）； Hive
的配置文件位于主节点/opt/module/hive-3.1.2/conf/ Spark 任务在Yarn 上用Client
运行，方便观察日志；建议使用gson 解析json 数据。

任务一：离线数据采集

编写 Scala 工程代码，将 MySQL 的 ds_db01 库中表 order_master 、 order_detail、coupon_info、coupon_use、product_browse、product_info、 customer_inf 、 customer_login_log 、 order_cart 、 customer_level_inf 、 customer_addr 的数据增量抽取到 Hive 的 ods 库中对应表 order_master、 order_detail、coupon_info、coupon_use、product_browse、product_info、 customer_inf 、 customer_login_log 、 order_cart 、 customer_level_inf 、 customer_addr 中(ods 库中部分表没有数据，正常抽取即可)。
1、抽取 ds_db01 库中 order_master 的增量数据进入 Hive 的 ods 库中表 order_master。根据 ods.order_master 表中 modified_time 作为增量字段，只将新增的数据抽入，字段名称、类型不变，同时添加静态分区，分区字段为 etl_date，类型为 String，且值为当前比赛日的前一天日期（分区字段格式为 yyyyMMdd）。使用 hive cli 执行 show partitions ods.order_master命令，将执行结果截图粘贴至客户端桌面【Release\模块 B 提交结果.docx】中对应的任务序号下；

2、抽取 ds_db01 库中 order_detail 的增量数据进入 Hive 的 ods 库中表order_detail。根据 ods.order_detail 表中 modified_time 作为增量字段，只将新增的数据抽入，字段名称、类型不变，同时添加静态分区，分区字段为 etl_date，类型为 String，且值为当前比赛日的前一天日期（分区字段格式为 yyyyMMdd）。使用 hive cli 执行 show partitions ods.order_detail命令，将执行结果截图粘贴至客户端桌面【Release\模块 B 提交结果.docx】中对应的任务序号下；

3、抽取 ds_db01 库中 coupon_info 的增量数据进入 Hive 的 ods 库中表 coupon_info，根据 ods.coupon_info 表中 modified_time 作为增量字段，只将新增的数据抽入，字段名称、类型不变，同时添加静态分区，分区字段为 etl_date，类型为 String，且值为当前比赛日的前一天日期（分区字段格式为 yyyyMMdd）。使用 hive cli 执行 show partitions ods.coupon_info命令，将执行结果截图粘贴至客户端桌面【Release\模块 B 提交结果.docx】中对应的任务序号下；

4、抽取 ds_db01 库中 coupon_use 的增量数据进入 Hive 的 ods 库中表 coupon_use，增量字段取 ods.coupon_use 表中 get_time 、used_time 、 pay_time 中的最大者，只将新增的数据抽入，字段名称、类型不变，同时添加静态分区，分区字段为 etl_date，类型为 String，且值为当前比赛日的前一天日期（分区字段格式为 yyyyMMdd）。使用 Hive Cli 查询最新分区数据总条数，将执行结果截图粘贴至客户端桌面【Release\模块 B 提交结果.docx】中对应的任务序号下；

5、抽取 ds_db01 库中 product_browse 的增量数据进入 Hive 的 ods 库中表 product_browse，根据 ods.product_browse 表中 modified_time 作为增量字段，只将新增的数据抽入，字段名称、类型不变，同时添加静态分区，分区字段为 etl_date，类型为 String，且值为当前比赛日的前一天日期（分区字段格式为 yyyyMMdd ）。使用 hive cli 执行 show partitions ods.product_browse 命令，将执行结果截图粘贴至客户端桌面【Release\模块 B 提交结果.docx】中对应的任务序号下。

6、抽取 ds_db01 库中 product_info 的增量数据进入 Hive 的 ods 库中表 product_info，根据 ods.product_info 表中 modified_time 作为增量字段，只将新增的数据抽入，字段名称、类型不变，同时添加静态分区，分区字段为 etl_date，类型为 String，且值为当前比赛日的前一天日期（分区字段格式为 yyyyMMdd）。使用 hive cli 执行 show partitions ods.product_info命令，将执行结果截图粘贴至客户端桌面【Release\模块 B 提交结果.docx】中对应的任务序号下；

7、抽取 ds_db01 库中 customer_inf 的增量数据进入 Hive 的 ods 库中表 customer_inf，根据 ods.customer_inf 表中 modified_time 作为增量字段，只将新增的数据抽入，字段名称、类型不变，同时添加静态分区，分区字段为 etl_date，类型为 String，且值为当前比赛日的前一天日期（分区字段格式为 yyyyMMdd）。使用 hive cli 执行 show partitions ods.customer_inf命令，将执行结果截图粘贴至客户端桌面【Release\模块 B 提交结果.docx】中对应的任务序号下；

8、抽取ds_db01 库中customer_login_log 的增量数据进入Hive 的ods 库中表 customer_login_log，根据 ods.customer_login_log 表中 login_time 作为增量字段，只将新增的数据抽入，字段名称、类型不变，同时添加静态分区，分区字段为 etl_date，类型为 String，且值为当前比赛日的前一天日期（分区字段格式为 yyyyMMdd）。使用 hive cli 执行 show partitions ods. customer_login_log 命令，将执行结果截图粘贴至客户端桌面【Release\模块 B 提交结果.docx】中对应的任务序号下；

9、抽取 ds_db01 库中 order_cart 的增量数据进入 Hive 的 ods 库中表 order_cart，根据 ods.order_cart 表中 modified_time 作为增量字段，只将新增的数据抽入，字段名称、类型不变，同时添加静态分区，分区字段为 etl_date，类型为 String，且值为当前比赛日的前一天日期（分区字段格式为 yyyyMMdd）。使用 hive cli 执行 show partitions ods.order_cart 命令，将执行结果截图粘贴至客户端桌面【Release\模块 B 提交结果.docx】中对应的任务序号下；

10、抽取 ds_db01 库中 customer_addr 的增量数据进入 Hive 的 ods 库中表 customer_addr，根据 ods.customer_addr 表中 modified_time 作为增量字段，只将新增的数据抽入，字段名称、类型不变，同时添加静态分区，分区字段为 etl_date，类型为 String，且值为当前比赛日的前一天日期（分区字段格式为 yyyyMMdd ）。使用 hive cli 执行 show partitions ods. customer_addr 命令，将执行结果截图粘贴至客户端桌面【Release\模块 B提交结果.docx】中对应的任务序号下；

11、抽取 ds_db01 库中 customer_level_inf 的增量数据进入 Hive 的 ods 库中表 customer_level_inf ，根据 ods.customer_level_inf 表中 modified_time 作为增量字段，只将新增的数据抽入，字段名称、类型不变，同时添加静态分区，分区字段为 etl_date，类型为 String，且值为当前比赛日的前一天日期（分区字段格式为 yyyyMMdd）。使用 hive cli 执行 show partitions ods.customer_level_inf 命令，将执行结果截图粘贴至客户端桌面【Release\模块 B 提交结果.docx】中对应的任务序号下。

任务二：实时数据采集

1、在主节点使用 Flume 采集实时数据生成器 25001 端口的 socket 数据（实时数据生成器脚本为主节点/data_log 目录下的 gen_ds_data_to_socket 脚本，该脚本为 Master 节点本地部署且使用 socket 传输），将数据存入到 Kafka 的 Topic 中（Topic 名称为 ods_mall_log，分区数为 2，ZK 关于 Kafka 的信息在其/kafka 节点），使用 Kafka 自带的消费者消费 ods_mall_log（Topic）中的数据，查看 Topic 中的前 1 条数据的结果，将查看命令与结果完整的截图粘贴至客户端桌面【Release\模块 B 提交结果.docx】中对应的任务序号下；
注：需先启动已配置好的 Flume 再启动脚本，否则脚本将无法成功启动，启动方式为进入/data_log 目录执行./gen_ds_data_to_socket (如果没有权限，请执行授权命令 chmod 777 /data_log/gen_ds_data_to_socket)

2、实时脚本启动后，在主节点进入到 maxwell-1.29.0 的解压后目录下（在
/opt/module 下），配置相关文件并启动，读取主节点 MySQL 数据的 binlog日志（MySQL 的 binlog 相关配置已完毕，只需要关注 ds_realtime_db 数据库的表）到 Kafka 的 Topic 中（Topic 名称为 ods_mall_data，分区数为 2， ZK 关于 Kafka 的信息在其/kafka 节点）。使用 Kafka 自带的消费者消费 ods_mall_data（Topic）中的数据，查看 Topic 中的前 1 条数据的结果，将查看命令与结果完整的截图粘贴至客户端桌面【Release\模块 B 提交结果.docx】中对应的任务序号下。

模块 C：实时数据处理（25 分）

环境说明：服务端登录地址详见模块服务端说明。补充说明：节点可通过Asbru 工具或SSH 客户端进行SSH 访问；主节点MySQL
数据库用户名/密码：root/123456（已配置远程连接）； Flink 任务在Yarn 上用per job 模式（即Job
分离模式，不采用 Session 模式），方便Yarn 回收资源；建议使用gson 解析json 数据。

任务一：实时数据清洗
编写 Java 工程代码，使用 Flink 消费 Kafka 中 Topic 为 ods_mall_log 和 ods_mall_data 的数据并进行相应的数据统计计算(使用 Processing Time）。 1、使用 Flink 消费 Kafka 中 topic 为 ods_mall_data 的数据，根据数据中不同
的表将数据分别分发至 kafka 的 DWD 层的 fact_order_master 、 fact_order_detail 的 Topic 中（只获取 data 的内容，具体的内容格式请自查，其分区数均为 2），其他的表则无需处理。使用 Kafka 自带的消费者消费 fact_order_master（Topic）的前 1 条数据，将结果截图粘贴至客户端桌面【Release\模块 C 提交结果.docx】中对应的任务序号下；
fact_order_master 表结构，存储位置：Kafka，存储格式：json

在这里插入图片描述

fact_order_detail 表结构，存储位置：Kafka，存储格式：json

2、使用 Flink 消费 Kafka 中 topic 为 ods_mall_log 的数据，根据数据中不同的表前缀区分，过滤出 product_browse 的数据，将数据分别分发至 kafka的 DWD 层 log_product_browse 的 Topic 中，其分区数为 2，其他的表则无需处理。使用 Kafka 自带的消费者消费 log_product_browse（Topic）的前 1条数据，将结果截图粘贴至客户端桌面【Release\模块 C 提交结果.docx】中对应的任务序号下。
log_product_browse 表结构，存储位置：Kafka，存储格式：json
在这里插入图片描述
3、在任务 1 、 2 进行的同时，需要将 order_master 、 order_detail 、 product_browse 备份至 HBase 中（若 Int 类型长度不够，可使用 BigInt 或Long 类型代替），使用 HBase Shell 查看 ods:order_master 表的任意 2 条数据，查看字段为 row_key 与 shipping_user、查看 ods:order_detail 表的任意 2 条数据，查看字段为 row_key 与 product_name 、查看 ods:product_browse 表的任意 2 条数据，查看字段为 row_key 与 order_sn。将结果分别截图粘贴至客户端桌面【Release\模块 C 提交结果.docx】中对应的任务序号下（截图中不能有乱码）。
三个 HBase 中的数据结构为： ods:order_master 数据结构如下:

在这里插入图片描述

ods:order_detail 数据结构如下:

ods:product_browse 数据结构如下:

任务二：实时指标计算

编写 Java 工程代码，使用 Flink 消费 Kafka 中 dwd 层的 Topic 数据，表结构与离线数据表结构相同，时间语义使用 Processing Time。
1、使用 Flink 消费 kafka 中 fact_order_detail 主题的数据，统计商城每分钟的 GMV（结果四舍五入保留两位小数），将结果存入 redis 中（value 为字符串格式，仅存 GMV），key 为 store_gmv，使用 redis cli 以 get key 方式获取 store_gmv 值，将每次截图粘贴至客户端桌面【Release\模块 C 提交结果.docx】中对应的任务序号下（每分钟查询一次，至少查询 3 次）。 (GMV:所有订单金额，购买商品单价*购买商品数量，包括已下单未付款)

模块 D：离线数据处理（20 分）

环境说明：服务端登录地址详见模块服务端说明。补充说明：节点可通过Asbru 工具或SSH 客户端进行SSH 访问；主节点MySQL
数据库用户 /密码：root/123456（已配置远程连接）； Hive
的配置文件位于主节点/opt/module/hive-3.1.2/conf/ Spark 任务在Yarn 上用Client
运行，方便观察日志； ClickHouse 的jdbc 连接端口 8123，用户
/密码：default/123456，命令行客户端（tcp）端口 9001；建议使用gson 解析json 数据。

任务一：离线数据清洗

编写 Scala 工程代码，将 ods 库中表 order_master 、order_detail 、 coupon_info、coupon_use、product_browse、product_info、customer_inf、 customer_login_log、order_cart、customer_level_inf、customer_addr 抽取到 Hive 的 dwd 库中对应表中。表中有涉及到 timestamp 类型的，均要求按照 yyyy-MM-dd HH:mm:ss，不记录毫秒数，若原数据中只有年月日，则在时分秒的位置添加 00:00:00，添加之后使其符合 yyyy-MM-dd HH:mm:ss。
1、抽取 ods 库中表 customer_inf 最新分区数据，并结合 dim_customer_inf 最新分区现有的数据，根据 customer_id 合并数据到 dwd 库中 dim_customer_inf 的分区表（合并是指对 dwd 层数据进行插入或修改，需修改的数据以 customer_id 为合并字段，根据 modified_time 排序取最新的一条），分区字段为 etl_date 且值与 ods 库的相对应表该值相等，并添加 dwd_insert_user、dwd_insert_time、dwd_modify_user、dwd_modify_time四列，其中 dwd_insert_user、dwd_modify_user 均填写“user1”。若该条记录第一次进入数仓 dwd 层则 dwd_insert_time、dwd_modify_time 均存当前操作时间，并进行数据类型转换。若该数据在进入 dwd 层时发生了合并修改，则 dwd_insert_time 时间不变，dwd_modify_time 存当前操作时间，其余列存最新的值。使用 hive cli 查询 modified_time 为 2022 年 10 月 01 日当天的数据，查询字段为 customer_id、customer_email、modified_time、 dwd_insert_time、dwd_modify_time，并按照 customer_id 进行升序排序，将结果截图粘贴至客户端桌面【Release\模块 D 提交结果.docx】中对应的任务序号下；

2、抽取 ods 库中表 coupon_info 最新分区数据，并结合 dim_coupon_info 最新分区现有的数据，根据 coupon_id 合并数据到 dwd 库中 dim_coupon_info 的分区表（合并是指对 dwd 层数据进行插入或修改，需修改的数据以 coupon_id为合并字段，根据 modified_time 排序取最新的一条），分区字段为 etl_date且值与 ods 库的相对应表该值相等，并添加 dwd_insert_user 、 dwd_insert_time 、 dwd_modify_user 、 dwd_modify_time 四列，其中 dwd_insert_user、dwd_modify_user 均填写“user1”。若该条记录第一次进入数仓 dwd 层则 dwd_insert_time、dwd_modify_time 均存当前操作时间，并进行数据类型转换。若该数据在进入 dwd 层时发生了合并修改，则 dwd_insert_time 时间不变，dwd_modify_time 存当前操作时间，其余列存最新的值。使用 hive cli 执行 show partitions dwd.dim_coupon_info 命令，将结果截图粘贴至客户端桌面【Release\模块 D 提交结果.docx】中对应的任务序号下；

3、抽取 ods 库中表 product_info 最新分区的数据，并结合 dim_product_info最新分区现有的数据，根据 product_core 合并数据到 dwd 库中 dim_product_info 的分区表（合并是指对 dwd 层数据进行插入或修改，需修改的数据以 product_core 为合并字段，根据 modified_time 排序取最新的一条），分区字段为 etl_date 且值与 ods 库的相对应表该值相等，并添加 dwd_insert_user、dwd_insert_time、dwd_modify_user、dwd_modify_time四列，其中 dwd_insert_user、dwd_modify_user 均填写“user1”。若该条记录第一次进入数仓 dwd 层则 dwd_insert_time、dwd_modify_time 均存当前操作时间，并进行数据类型转换。若该数据在进入 dwd 层时发生了合并修改，则 dwd_insert_time 时间不变，dwd_modify_time 存当前操作时间，其余列存最新的值。使用 hive cli 执行 show partitions dwd.dim_product_info 命令，将结果截图粘贴至客户端桌面【Release\模块 D 提交结果.docx】中对应的任务序号下；

4、抽取 ods 库中表 order_master 最新分区的数据，并结合 HBase 中 order_master_offline 表中的数据合并抽取到dwd 库中fact_order_master的分区表，分区字段为 etl_date 且值与 ods 库的相对应表该值相等，并添加 dwd_insert_user、dwd_insert_time、dwd_modify_user、dwd_modify_time四列，其中 dwd_insert_user 、 dwd_modify_user 均填写“ user1 ” ， dwd_insert_time、dwd_modify_time 均填写当前操作时间（年月日必须是今天，时分秒只需在比赛时间范围内即可），抽取 HBase 中的数据时，只抽取 2022 年 10 月 01 日的数据（以 rowkey 为准），并进行数据类型转换。使用 hive cli 查询 modified_time 为 2022 年 10 月 01 日当天的数据，查询字段为 order_id、order_sn、shipping_user、create_time、shipping_time，并按照 order_id 进行升序排序，将结果截图复制粘贴至客户端桌面
【Release\模块 D 提交结果.docx】中对应的任务序号下；
ods: order_master_offline 数据结构如下:
在这里插入图片描述

5、抽取 ods 库中表 order_detail 表最新分区的数据，并结合 HBase 中 order_detail_offline 表中的数据合并抽取到dwd 库中fact_order_detail的分区表，分区字段为 etl_date 且值与 ods 库的相对应表该值相等，并添加 dwd_insert_user、dwd_insert_time、dwd_modify_user、dwd_modify_time四列，其中 dwd_insert_user 、 dwd_modify_user 均填写“ user1 ” ， dwd_insert_time、dwd_modify_time 均填写当前操作时间（年月日必须是今天，时分秒只需在比赛时间范围内即可），抽取 HBase 中的数据时，只抽取 2022 年 10 月 01 日的数据（以 rowkey 为准），并进行数据类型转换。使用 hive cli 查询 modified_time 为 2022 年 10 月 01 日当天的数据，查询字段为 order_detail_id 、order_sn 、product_name 、create_time ，并按照 order_detail_id 进行升序排序，将结果截图粘贴至客户端桌面【Release\模块 D 提交结果.docx】中对应的任务序号下；
ods:order_detail_offline 数据结构如下:
在这里插入图片描述
6、抽取 ods 库中表 coupon_use 最新分区的数据到 dwd 库中 fact_coupon_use的分区表，分区字段为 etl_date 且值与 ods 库的相对应表该值相等，并添加 dwd_insert_user、dwd_insert_time、dwd_modify_user、dwd_modify_time四列，其中 dwd_insert_user 、 dwd_modify_user 均填写“ user1 ” ， dwd_insert_time、dwd_modify_time 均填写当前操作时间（年月日必须是今天，时分秒只需在比赛时间范围内即可），并进行数据类型转换。使用 hive cli 执行 show partitions dwd.fact_coupon_use 命令，将结果截图粘贴至客户端桌面【Release\模块 D 提交结果.docx】中对应的任务序号下；

7、抽取 ods 库中表 customer_login_log 最新分区的数据到 dwd 库中 log_customer_login 的分区表，分区字段为 etl_date 且值与 ods 库的相对应表该值相等，并添加 dwd_insert_user 、 dwd_insert_time 、 dwd_modify_user 、 dwd_modify_time 四列，其中 dwd_insert_user 、 dwd_modify_user 均填写“user1”，dwd_insert_time、dwd_modify_time均填写当前操作时间（年月日必须是今天，时分秒只需在比赛时间范围内即可），并进行数据类型转换。使用 hive cli 执行 show partitions dwd.log_customer_login 命令，将结果截图粘贴至客户端桌面【Release\模块 D 提交结果.docx】中对应的任务序号下；

8、抽取 ods 库中表 order_cart 最新分区的数据到 dwd 库中 fact_order_cart的分区表，分区字段为 etl_date 且值与 ods 库的相对应表该值相等，并添加 dwd_insert_user、dwd_insert_time、dwd_modify_user、dwd_modify_time四列，其中 dwd_insert_user 、 dwd_modify_user 均填写“ user1 ” ， dwd_insert_time、dwd_modify_time 均填写当前操作时间（年月日必须是今天，时分秒只需在比赛时间范围内即可），并进行数据类型转换。使用 hive cli 执行 show partitions dwd.fact_order_cart 命令，将结果截图粘贴至客户端桌面【Release\模块 D 提交结果.docx】中对应的任务序号下；

9、抽取 ods 库中表 product_browse 最新分区的数据，并结合 HBase 中 product_browse_offline 表中的数据合并抽取到 dwd 库中 log_product_browse 的分区表，分区字段为 etl_date 且值与 ods 库的相对应表该值相等，并添加 dwd_insert_user 、 dwd_insert_time 、 dwd_modify_user 、 dwd_modify_time 四列，其中 dwd_insert_user 、 dwd_modify_user 均填写“user1”，dwd_insert_time、dwd_modify_time均填写当前操作时间（年月日必须是今天，时分秒只需在比赛时间范围内即可），抽取 HBase 中的数据时，只抽取 2022 年 10 月 01 日的数据（以 rowkey为准），并进行数据类型转换。使用 hive cli 查询 modified_time 为 2022年 10 月 01 日当天的数据，查询字段为 log_id、product_id、order_sn、 modified_time，并按照 log_id 进行升序排序，将结果截图粘贴至客户端桌面【Release\模块 D 提交结果.docx】中对应的任务序号下；
ods:product_browse_offline 数据结构如下:

字段	类型	中文含义	备注
rowkey	string	rowkey	随机数（ 0-9 ） +MMddHHmmssSSS
Info		列族名
log_id	int
product_id	int
customer_id	string
gen_order	int
order_sn	string
modified_time	double

10、抽取 ods 库中表 customer_level_inf 最新分区的数据到 dwd 库中 dim_customer_level_inf 的分区表，分区字段为 etl_date 且值与 ods 库的相对应表该值相等，并添加 dwd_insert_user 、 dwd_insert_time 、 dwd_modify_user 、 dwd_modify_time 四列，其中 dwd_insert_user 、 dwd_modify_user 均填写“user1”，dwd_insert_time、dwd_modify_time均填写当前操作时间（年月日必须是今天，时分秒只需在比赛时间范围内即可），并进行数据类型转换。使用 hive cli 执行 show partitions dwd. dim_customer_level_inf 命令，将结果截图粘贴至客户端桌面【Release\模块 D 提交结果.docx】中对应的任务序号下；

11、抽取 ods 库中表 customer_addr 最新分区的数据到 dwd 库中 dim_customer_addr 的分区表，分区字段为 etl_date 且值与 ods 库的相对应表该值相等，并添加 dwd_insert_user、dwd_insert_time、dwd_modify_user、 dwd_modify_time 四列，其中 dwd_insert_user、dwd_modify_user 均填写“user1”，dwd_insert_time、dwd_modify_time 均填写当前操作时间（年月日必须是今天，时分秒只需在比赛时间范围内即可），并进行数据类型转换。使用 hive cli 执行 show partitions dwd.dim_customer_addr 命令，将结果截图粘贴至客户端桌面【Release\模块 D 提交结果.docx】中对应的任务序号下；

12、将 dwd 库中 dim_customer_inf 、 dim_customer_addr 、 dim_customer_level_inf 表的数据关联到 dws 库中 customer_addr_level_aggr 的分区表，分区字段为 etl_date，类型为 String，且值为当前比赛日的前一天日期（分区字段格式为 yyyyMMdd），并添加 dws_insert_user、dws_insert_time、dws_modify_user、dws_modify_time四列，其中 dws_insert_user 、 dws_modify_user 均填写“ user1 ” ， dws_insert_time、dws_modify_time 均填写当前操作时间（年月日必须是今天，时分秒只需在比赛时间范围内即可），并进行数据类型转换。使用 hive cli 统计最新分区中的数据总量，将结果截图粘贴至客户端桌面【Release\模块 D 提交结果.docx】中对应的任务序号下。

任务二：离线指标计算

1、编写 Scala 工程代码，根据 dwd 的登录日志表 dwd.log_customer_login，求 login_time 字段值为 2022-08-10 的最近连续三周登录的用户数，并将计算结果按照下述表结构写入 clickhouse 的 ds_result 库的 continuous_3week 表。然后在 Linux 的 clickhouse 命令行中根据 active_total 降序查询，将 SQL 语句与执行结果截图粘贴至客户端桌面【Release\模块 D 提交结果.docx】中对应的任务序号下。continuous_3week 表结构：

字段	类型	中文含义	备注
end_date	string	数据统计日期	2022-08-10
active_total	int	活跃用户数
date_range	string	统计周期	格式：统计开始时间_结束时间

date_range: 例：假设统计 2022 年 9 月 8 日的连续三周登录用户数，则该字段值应该为 2022-08-22_2022-09-11。

模块 E：数据可视化（15 分）

环境说明：数据接口地址及接口描述详见模块服务端说明。

任务一：用柱状图展示消费额最高的省份

编写 Vue 工程代码，根据接口，用柱状图展示 2020 年消费额最高的 5 个省份（不用考虑数据是否合规，直接聚合省份消费额），同时将用于图表展示的数据结构在浏览器的 console 中进行打印输出，将图表可视化结果和浏览器 console 打印结果分别截图并粘贴至客户端桌面【Release\模块 E 提交结果.docx】中对应的任务序号下。
任务二：用饼状图展示各地区消费能力

编写 Vue 工程代码，根据接口，用饼状图展示 2020 年各地区的消费总额占比（不用考虑数据是否合规，直接聚合地区消费额），同时将用于图表展示的数据结构在浏览器的 console 中进行打印输出，将图表可视化结果和浏览器 console 打印结果分别截图并粘贴至客户端桌面【Release\模块 E 提交结果.docx】中对应的任务序号下。

任务三：用散点图展示每年上架商品数量的变化

编写 Vue 工程代码，根据接口，用基础散点图展示每年上架商品数量的变化情况，同时将用于图表展示的数据结构在浏览器的 console 中进行打印输出，将图表可视化结果和浏览器 console 打印结果分别截图并粘贴至客户端桌面【Release\模块 E 提交结果.docx】中对应的任务序号下。

模块 F：综合分析（10 分）

任务一：请简述Spark 中共享变量的基本原理和用途。

请简述 Spark 中共享变量的基本原理和用途，将内容编写至客户端桌面
【Release\模块 F 提交结果.docx】中对应的任务序号下。

任务二：请简述Flink 资源管理中Task Slot 的概念。

请简述你对 Task Slot 的理解，将内容编写至客户端桌面【Release\模块 F 提交结果.docx】中对应的任务序号下。
任务三：对于分组排序的理解。

请问 Hive SQL 有哪三种分组排序，他们各自的特点是什么？将内容编写至对应报告中将内容编写至客户端桌面【Release\模块 F 提交结果.docx】中对应的任务序号下。

附录：补充说明

命令行截图样例（保证清晰）
在这里插入图片描述
表结构说明
MySQL 数据库中已自带注释，自行连接使用工具查看。
若IDEA 运行代码时候出现

scalac: No ‘scala-library*.jar’ in Scala compiler classpath in Scala SDK Maven: org.scala-lang:scala-library:2.12.0

则需要在Flie->Project Structure->Project Settings->Libraries->添加scala
的包（2.12 大版本一致即可）。

旺仔Sec

关注

12
点赞
踩
4

收藏

觉得还不错? 一键收藏
打赏
0
评论
2024年甘肃省职业院校技能大赛高职组“大数据应用开发”赛题③

大数据时代背景下，电商经营模式发生很大改变。在传统运营模式中，缺乏数据积累，人们在做出一些决策行为过程中，更多是凭借个人经验和直觉，发展路径比较自我封闭。而大数据时代，为人们提供一种全新的思路，通过大量的数据分析得出的结果将更加现实和准确。商家可以对客户的消费行为信息数据进行收集和整理，比如消费者购买产品的花费、选择产品的渠道、偏好产品的类型、产品回购周期、购买产品的目的、消费者家庭背景、工作和生活环境、个人消费观和价值观等。通过数据追踪，知道顾客从哪儿来，是看了某网站投放的广告还是通过朋友推荐链接，是新访
复制链接

扫一扫