大数据离线分析Hadoop项目(待完善)

在这里插入图片描述

项目流程

1.数据产生
JsSdk和javaSdk。
数据怎么到达nginx服务器上的?Uri、拼接,然后http带着这些信息,请求访问nginx服务器,nginx就可以获取采集这些信息,产生的日志规则自己定义。要注意高可用(根据实际业务场景,比如只统计pv等指标的话,丢点数据关系不大可以不配置HA,但是如果是采集后台用户订单信息时,数据不能丢就要配置HA)和负载均衡。

2.数据采集
利用flume采集到HDFS上(flume配置是否要高可用,是否要汇聚节点),目录根据时间动态生成。

3.MR数据清洗
去除没有时间戳的数据(因为我们是按时间进行划分、分析,没有时间的数据无意义);
去除长度不为4的数据(该种数据认定为爬虫的数据)。
ip解析为地域信息(纯真数据库和淘宝ip解析两种方式);
UserAgent解析:分别获取浏览器和系统的名称、版本号;
LogParser解析:将时间戳去掉.转化成毫秒,处理uri参数列表,处理后的结果以<K,V>对的形式存储在map集合中。
将以上所有解析结果综合,格式化数据,存入HDFS中。

4.数据分析
七大模块&#x

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值