2023年全国职业院校技能大赛
大数据应用开发 评分标准

|
任务 |
子任务 |
主要知识与技能点 |
分值 |
|
任务A:大数据平台搭建(容器环境) |
JDK的解压安装 |
1 | |
|
JDK的环境变量配置 |
1 | ||
|
Host配置及三个节点的分发 |
1 | ||
|
Hadoop解压安装及环境初始化 |
2 | ||
|
Hadoop集群启动并查看 |
2 | ||
|
Flume的解压安装、配置文件配置、运行测试等 |
1 | ||
|
环境变量配置 |
1 | ||
|
Hadoop日志传输 |
2 | ||
|
Flink的解压安装 |
1 | ||
|
环境变量配置 |
1 | ||
|
运行测试 |
2 | ||
|
小计 |
15 | ||
|
任务B:离线数据处理 |
子任务一:数据抽取 |
从MySQL中将user_info表的离线数据抽取到Hudi的ods_ds_hudi对应表中 |
1 |
|
从MySQL中将sku_info表的离线数据抽取到Hudi的ods_ds_hudi对应表中 |
1 | ||
|
从MySQL中将base_province表的离线数据抽取到Hudi的ods_ds_hudi对应表中 |
1 | ||
|
从MySQL中将base_region表的离线数据抽取到Hudi的ods_ds_hudi对应表中 |
1 | ||
|
从MySQL中将order_info表的离线数据抽取到Hudi的ods_ds_hudi对应表中 |
1 | ||
|
从MySQL中将order_detail表的离线数据抽取到Hudi的ods_ds_hudi对应表中 |
1 | ||
|
子任务二:数据清洗 |
从Hudi的ods_ds_hudi到dwd_ds_hudi的进行user_info表的数据合并清洗 |
1 | |
|
从Hudi的ods_ds_hudi到dwd_ds_hudi的进行sku_info表的数据合并清洗 |
1 | ||
|
从Hudi的ods_ds_hudi到dwd_ds_hudi的进行base_province表的数据合并清洗 |
1 | ||
|
从Hudi的ods_ds_hudi到dwd_ds_hudi的进行base_region表的数据合并清洗 |
1 | ||
|
从Hudi的ods_ds_hudi到dwd_ds_hudi的进行order_info表的数据抽取 |
1 | ||
|
从Hudi的ods_ds_hudi到dwd_ds_hudi的进行order_detail表的数据抽取 |
1 | ||
|
在dwd层基于Azkaban进行工作流任务调度 |
1 | ||
|
统计每人每天下单的数量和下单的总金额存入Hudi的dws_ds_hudi层 |
1 | ||
|
统计每个省每月下单的数量和下单的总金额存入Hudi的dws_ds_hudi层 |
1 | ||
|
计算出每个省份2020年4月的平均订单金额和该省所在地区平均订单金额相比较结果存入ClickHouse |
1 | ||
|
按照id进行升序累加订单的金额,取出累加值与目标值2023060600相差最小的前10条的订单id,按照差值从小到大进行排序,将计算结果存入MySQL数据库 |
2 | ||
|
按照id进行升序排序,取id小于等于20000的订单,求出连续订单中平均金额数最大前1000000的连续订单序列,将计算结果存入MySQL数据库 |
7 | ||
|
小计 |
25 | ||
|
任务C:数据挖掘 |
子任务一:特征工程 |
对推荐系统的数据集进行数据预处理 |
2 |
|
利用特征工程进行特征提取 |
3 | ||
|
子任务二:推荐系统 |
基于用户的推荐系统设计开发操作 |
5 | |
|
小计 |
10 | ||
|
任务D:数据采集与实时计算 |
子任务一:实时数据采集 |
基于Flume的实时数据采集,将数据注入Kafka |
4 |
|
将数据同时备份到HDFS |
4 | ||
|
子任务二:使用Flink处理Kafka中的数据 |
实时统计商城实时订单数量存入Redis |
3 | |
|
实时统计每分钟申请退回的订单数量存入Redis |
4 | ||
|
实时统计每分钟内状态为取消订单占所有订单的占比存入Redis |
5 | ||
|
小计 |
20 | ||
|
任务E:数据可视化 |
子任务一:用柱状图展示各省份消费额的中位数 |
正确使用Vue.js框架,结合ECharts绘制柱状图 |
3 |
|
子任务二:用玫瑰图展示各地区消费能力 |
正确使用Vue.js框架,结合ECharts绘制玫瑰图 |
3 | |
|
子任务三:用折线图展示每年上架商品数量变化 |
正确使用Vue.js框架,结合ECharts绘制折线图 |
2 | |
|
子任务四:用条形图展示消费总额最高的省份 |
正确使用Vue.js框架,结合ECharts绘制条形图 |
3 | |
|
子任务五:用折柱混合图展示省份平均消费额和地区平均消费额 |
正确使用Vue.js框架,结合ECharts绘制折柱混合图 |
4 | |
|
小计 |
15 | ||
|
任务F:综合分析 |
子任务一:MySQL数据库事务 |
正确分析MySQL数据库事务及其隔离级别 |
4 |
|
子任务二:Flink的反压机制 |
正确分析Flink的反压机制 |
3 | |
|
子任务三:Spark执行计划 |
正确分析Spark的执行计划 |
3 | |
|
小计 |
10 | ||
|
任务G:职业素养 |
考察职业素养 |
竞赛团队分工明确合理、操作规范、文明竞赛 |
5 |
|
小计 |
5 | ||
|
总分 |
100 | ||
本文详细阐述了2023年全国职业院校技能大赛中大数据应用开发的关键任务,涉及大数据平台搭建(Hadoop、Flume、Flink)、离线数据处理、数据采集与实时计算、数据挖掘、数据可视化以及职业素养考察等方面,强调了评分标准中的技术要点和实际操作要求。
967

被折叠的 条评论
为什么被折叠?



