个人博客网站日志收集分析系统整理

最新推荐文章于 2024-05-11 06:39:44 发布

阿里神鲲

最新推荐文章于 2024-05-11 06:39:44 发布

阅读量1.2k

点赞数 1

分类专栏：项目整理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u010014073/article/details/84885930

版权

项目整理专栏收录该内容

2 篇文章 0 订阅

订阅专栏

项目名称:个人博客网站日志收集分析系统

项目背景:根据用户访问情况，搜集数据，加以分析，得到有用的数据。

项目描述：

用户访问博客后，统计并收集日志信息，并对日志信息进行清洗分析

按在线情况分析在线情况分析分别记录在线浏览该网站的用户的活动信息，包括：来访时间、访客地域、来路页面、当前停留页面等，这些功能对企业实时掌握自身网站流量有很大的帮助。
按时段分析时段分析提供网站任意时间内的流量变化情况.或者某一段时间到某一段时间的流量变化，比如小时段分布，日访问量分布，对于企业了解用户浏览网页的的时间段有一个很好的分析。
按来源分析来源分析提供来路域名带来的来访次数、IP、独立访客、新访客、新访客浏览次数、站内总浏览次数等数据。这个数据可以直接让企业了解推广成效的来路，从而分析出那些网站投放的广告效果更明显。

架构描述:Flume+Kafka+Storm+Hadoop+Hive+Hbase+Sqoop+Mysql

责任描述:

博客网站搭建
系统架构设计
日志采集系统搭建
离线业务系统搭建
Hive做离线数据处理

项目架构描述图:

实时处理流程图：

项目中统计的指标说明：

指标	指标含义
PV	Page View 页面访问量。两种方式来统计: 1.离线批处理统计，统计一天之内总的pv 2.实时分析用户访问一次网站任意一页面，就算作一次PV,包括刷新也算
UV	总的独立访客数，按人头来计算，即统计有多少不同的用户数实现思路：每个用户初次访问网站时，会为此用户分配一个全局唯一的用户id, uvid。然后放到用户浏览起的cookie里。以后用户再次访问时，都会携带此uvid
VV	总的独立会话数。 1.当关闭浏览器，再次打开，算作一个新会话 2.当一个会话超过30分钟未操作，再次操作，也算作一个新会话实现思路：每当产生一个新会话，就会为其分配一个全局唯一的会话id （SSID）
BR	页面跳出率=跳出会话数/总的独立会话数页面跳出率是衡量网站优良性的标准。跳出率越高，说明网站对于用户的粘性越低
NewCust	新增用户数，用uvid去历史数据做比对，如果此uvid从未出现过，就记为此用户是一个新增用户数
NewIp	新增Ip数，思路同上，指标换成ip地址
AvgDeep	平均的会话访问深度=总的会话访问深度/总的独立会话数一个会话的访问深度：浏览过哪些不同的url地址
AvgTime	平均的会话访问时长=总的会话访问时长/总的独立会话数一般情况下，计算出时长的理论值要小于真实值，因为最后一个页面的时长获取不到

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
个人博客网站日志收集分析系统整理

项目名称:个人博客网站日志收集分析系统项目背景:根据用户访问情况，搜集数据，加以分析，得到有用的数据。项目描述：用户访问博客后，统计并收集日志信息，并对日志信息进行清洗分析按在线情况分析在线情况分析分别记录在线浏览该网站的用户的活动信息，包括：来访时间、访客地域、来路页面、当前停留页面等，这些功能对企业实时掌握自身网站流量有很大的帮助。按时段分析时段分析提供网站任意时间内...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。