web日志分析系统(课程设计作业)

该文章详述了一个大数据综合项目,涉及网站流量日志的获取、预处理和分析。通过Hive进行数据清洗,创建明细表和中间表,利用动态分区加载数据到HDFS,并统计每天的PV量。数据最终被导入到MySQL,用于生成人均浏览量的维度表,并通过SQLyog工具进行远程管理。尽管数据可视化阶段遇到问题,但主要的数据处理流程已完成。
摘要由CSDN通过智能技术生成

前言

项目url:大数据综合项目–网站流量日志数据分析系统(详细步骤和代码)
感谢这位大佬

获取数据

暂时省略,直接用现成的日志文件

预处理

在这里插入图片描述
运行成功后得到的文件:
在这里插入图片描述
上传到hdfs
在这里插入图片描述
在检测页面中可以查看到
在这里插入图片描述
启动hive,创建数据库
在这里插入图片描述
创建表
在这里插入图片描述

加载数据到hive表
在这里插入图片描述
查询
select * from ods_weblog_origin;
在这里插入图片描述

创建明细表ods_weblog_detail
在这里插入图片描述
创建中间临时表t_ods_tmp_referurl
在这里插入图片描述
创建临时中间表t_ods_tmp_detail
在这里插入图片描述
加载数据到明细宽表前启用动态分区

hive > set hive.exec.dynamic.partition=true;
hive > set hive.exec.dynamic.partition.mode=nonstrict;
在这里插入图片描述

生成明细宽表 向ods_weblog_detail表,加载数据
在这里插入图片描述
查看HDFS的WEB UI界面的ods_weblog_detail文件夹
在这里插入图片描述
统计每一天的PV量
创建表dw_pvs_everyday

在这里插入图片描述

提取“day”字段
在这里插入图片描述
查看表dw_pvs_everyday中的数据
在这里插入图片描述
实现人均浏览量
创建维度表dw_avgpv_user_everyday
create table dw_avgpv_user_everyday( day string,avgpv string);
在这里插入图片描述
向表dw_avgpv_user_everyday中插入数据
在这里插入图片描述
查看表dw_avgpv_user_everyday中的数据
在这里插入图片描述
通过SQLyog工具远程连接集群主服务器的MySQL服务
在这里插入图片描述
创建数据库

在这里插入图片描述
创建七日人均浏览量表t_avgpv_num
在这里插入图片描述
Sqoop导出数据
这一步是将我们的数据加载到mysql数据库中

在这里插入图片描述

将我们的数据库数据使用web技术转化成可视化数据
在这里插入图片描述
跑出来之后某些模块有问题,会报错,没有进行处理。摆烂了,哈哈。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值