互联网日志用户行为分析

最新推荐文章于 2024-08-28 21:11:10 发布

一个爱好编程的业余人士

最新推荐文章于 2024-08-28 21:11:10 发布

阅读量2.4k

点赞数

分类专栏：大数据文章标签： hadoop 大数据

本文链接：https://blog.csdn.net/u014552259/article/details/93302460

版权

本文介绍了在互联网日志用户行为分析项目中，如何使用Hadoop MapReduce进行数据清洗和处理。首先，从Flume采集的日志数据开始，经过数据清洗阶段，解析IP获取province、city等信息，再通过MapReduce进行数据预处理。接着，通过编写MapReduce程序统计每个省份的PV和UV，最终实现了对用户访问行为的有效分析。

摘要由CSDN通过智能技术生成

项目需求

在我们的场景中，Web应用的部署是如下的架构：在这里插入图片描述
即比较典型的Nginx负载均衡+KeepAlive高可用集群架构，在每台Web服务器上，都会产生用户的访问日志，日志格式如下：

根据给定的时间范围内的日志数据，统计出每个省每日访问的PV、UV。

实现步骤

第一步：获取原生数据

数据采集工作由运维人员来完成，对于用户访问日志的采集，使用的是Flume，并且会将采集的数据保存到HDFS中，其架构如下：
在这里插入图片描述

可以看到，不同的Web Server上都会部署一个Agent用于该Server上日志数据的采集，之后，不同Web Server的Flume Agent采集的日志数据会下沉到另外一个被称为Flume Consolidation Agent(聚合Agent)的Flume Agent上，该Flume Agent的数据落地方式为输出到HDFS。
在我们的HDFS中，可以查看到其采集的日志：
在这里插入图片描述

第二步：数据清洗

1、数据清洗目的

刚刚采集到HDFS中的原生数据，我们也称为不规整数据，即目前来说，该数据的格式还无法满足我们对数据处理的基本要求，需要对其进行预处理，转化为我们后面工作所需要的较为规整的数据，所以这里的数据清洗，其实指的就是对数据进行基本的预处理，以方便我们后面的统计分析，所以这一步并不是必须的，需要根据不同的业务需求来进行取舍，只是在我们的场景中需要对数据进行一定的处理。