大数据技能大赛答案

本文详细介绍了大数据技能大赛中的数据挖掘任务C和实时计算任务D。任务C包括特征工程和推荐系统,涉及用户购买商品的去重、one-hot转换及SVD分解;任务D涉及Flume实时数据采集、Flink处理Kafka数据,统计订单数量、商品销售量和销售额,并将结果存储在Redis中。
摘要由CSDN通过智能技术生成

大数据技能大赛答案

所有模块都有,不是白嫖!!有需要可以联系我,直接私信我看价格
所有模块都有,不是白嫖!!有需要可以联系我,直接私信我看价格
所有模块都有,不是白嫖!!有需要可以联系我,直接私信我看价格
VX:bigdata12

任务C:数据挖掘(10分)

环境说明:

服务端登录地址详见各任务服务端说明。
补充说明:各节点可通过Asbru工具或SSH客户端进行SSH访问;
主节点MySQL数据库用户名/密码:root/123456(已配置远程连接);
Spark任务在Yarn上用Client运行,方便观察日志。
该任务均使用Scala编写,利用Spark相关库完成。

子任务一:特征工程

剔除订单信息表与订单详细信息表中用户id与商品id不存在于现有的维表中的记录,同时建议多利用缓存并充分考虑并行度来优化代码,达到更快的计算效果。
1、据Hudi的dwd_ds_hudi库中相关表或MySQL数据库shtd_store中订单相关表(order_detail、order_info、sku_info),对用户购买过的商品进行去重,将其转换为以下格式:第一列为用户id mapping,第二列为用户购买过的商品id mapping,按照use

  • 19
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值