前言
项目url:大数据综合项目–网站流量日志数据分析系统(详细步骤和代码)
感谢这位大佬
获取数据
暂时省略,直接用现成的日志文件
预处理
运行成功后得到的文件:
上传到hdfs
在检测页面中可以查看到
启动hive,创建数据库
创建表
加载数据到hive表
查询
select * from ods_weblog_origin;
创建明细表ods_weblog_detail
创建中间临时表t_ods_tmp_referurl
创建临时中间表t_ods_tmp_detail
加载数据到明细宽表前启用动态分区
hive > set hive.exec.dynamic.partition=true;
hive > set hive.exec.dynamic.partition.mode=nonstrict;
生成明细宽表 向ods_weblog_detail表,加载数据
查看HDFS的WEB UI界面的ods_weblog_detail文件夹
统计每一天的PV量
创建表dw_pvs_everyday
提取“day”字段
查看表dw_pvs_everyday中的数据
实现人均浏览量
创建维度表dw_avgpv_user_everyday
create table dw_avgpv_user_everyday( day string,avgpv string);
向表dw_avgpv_user_everyday中插入数据
查看表dw_avgpv_user_everyday中的数据
通过SQLyog工具远程连接集群主服务器的MySQL服务
创建数据库
创建七日人均浏览量表t_avgpv_num
Sqoop导出数据
这一步是将我们的数据加载到mysql数据库中
将我们的数据库数据使用web技术转化成可视化数据
跑出来之后某些模块有问题,会报错,没有进行处理。摆烂了,哈哈。