Day4 基于Hadoop电商实践（1）

→_→735

已于 2024-06-12 14:38:56 修改

阅读量388

点赞数 5

文章标签： hadoop 大数据

于 2024-06-12 14:35:11 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_64373794/article/details/139625009

版权

一.需求分析

根据电商日志文件，分析：

1. 统计页面浏览量（每行记录就是一次浏览）

2. 统计各个省份的浏览量（需要解析IP）

3. 日志的ETL操作（ETL：数据从来源端经过抽取（Extract）、转换（Transform）、加载（Load）至目的端的过程）

为什么要ETL：没有必要解析出所有数据，只需要解析出有价值的字段即可。本项目中需要解析出：ip、url、pageId（topicId对应的页面Id）、country、province、city。

二.准备工作

1.启动Hadoop

sbin/start-dfs.sh

2.在hdfs上新建输入文件夹和输出文件夹，将原数据放入input文件夹中

hdfs  dfs -mkdir  -p /trackinfo/input

hdfs  dfs -mkdir  -p /trackinfo/output

三.第一问(页面浏览量)分析实现

1.Map阶段

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。