大数据日志分析系统背景及架构

最新推荐文章于 2021-07-22 17:08:44 发布

邵奈一

最新推荐文章于 2021-07-22 17:08:44 发布

阅读量4.6k

点赞数 2

分类专栏：大数据文章标签： hadoop spark 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/shaock2018/article/details/88816230

版权

大数据专栏收录该内容

89 篇文章 5 订阅

订阅专栏

用户行为日志

用户每次访问网站时所有的行为数据（访问、浏览、搜索、点击…）
用户行为轨迹、流量日志

日志数据主要内容

访问的系统属性：操作系统、浏览器等等
访问特征：点击的url、从哪个url跳转过来的(referer)、页面上的停留时间等
访问信息：session_id、访问ip(访问城市)等

离线数据处理架构
在这里插入图片描述
数据处理流程五大步骤

数据采集
Flume：使用Flume对数据进行采集，将web日志写入到HDFS
数据清洗
使用Spark、Hive、MapReduce或者其他的一些分布式计算框架
清洗完之后的数据可以存放在HDFS或者Hive、Spark SQL里
数据处理
按照我们的需要进行相应业务的统计和分析（使用Spark、Hive、MapReduce、Flink等框架）
数据处理结果入库
结果可以存放到RDBMS、NoSQL等数据库
数据的可视化
通过图形化展示的方式展现出来：饼图、柱状图、地图、折线图
工具：ECharts、HUE、Zeppelin、Kibana等

用户行为日志分析的意义

网站的眼睛：能够看到用户的主要来源、喜好网站上的哪些内容，以及用户的忠诚度等
网站的神经：通过分析用户行为日志，我们能对网站的布局、功能进一步的优化，以提高用户的体验等
网站的大脑：通过分析结果，进行推广预算的划分，以及重点优化用户群体的倾向点等

模拟日志生成请参考此篇文章：Java实现定时生成日志到文件

关注

2
点赞
踩
15

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。