2024年全国职业院校技能大赛中职组大数据应用与服务赛项题库参考答案陆续更新中,敬请期待…_behavior2023-01-01

全国职业院校技能大赛中职组大数据应用与服务赛题库答案逐步更新,涵盖数据获取、清洗、标注及统计等任务。涉及Hadoop集群操作、Excel数据清洗、Java类开发及HDFS文件处理。提供全面的大数据学习资源,助力技能提升。
摘要由CSDN通过智能技术生成

2024年全国职业院校技能大赛中职组大数据应用与服务赛项题库参考答案陆续更新中,敬请期待…
武汉唯众智创科技有限公司
2024 年 2 月
联系人:辜渝傧13037102709

题号:试题01

模块二:数据获取与处理

(一)任务一:数据获取与清洗

1.子任务一:数据获取
(1)启动Hadoop集群,使用HDFS Shell指令,在HDFS根目录下级联创建一个名为/behavior/origin_log的目录,用于存储采集到的用户行为日志;
答:hadoop fs -mkdir -p /behavior/origin_log
(2)目录创建完成,使用HDFS Shell指令,将本地/root/eduhq/data/app_log/behavior目录下的所有用户行为日志文件采集至HDFS的/behavior/origin_log目录下;
答:hadoop fs -put /root/eduhq/data/app_log/behavior/* /behavior/origin_log
(3)采集完成,在本机打开浏览器,访问http://本机主机名:9870或http://本机IP地址:9870进入HDFS WebUI界面,查看是否成功将数据采集到HDFS上。
答:使用浏览器访问即可。
2.子任务二:数据清洗
(1)使用Windows操作系统上的Excel软件,打开名为
"behavior2023-01-01.csv"的文件;
(2)对数据进行清洗,专注处理名为"behavior2023- 01-01.csv"的文件中的"time"列。将时间日期格式进行分列,分别处理为日期和时间两列。
答:
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值