个人博客网站日志收集分析系统整理

项目名称:个人博客网站日志收集分析系统

项目背景:根据用户访问情况,搜集数据,加以分析,得到有用的数据。

项目描述:

用户访问博客后,统计并收集日志信息,并对日志信息进行清洗分析

  1. 按在线情况分析 在线情况分析分别记录在线浏览该网站的用户的活动信息,包括:来访时间、访客地域、来路页面、当前停留页面等,这些功能对企业实时掌握自身网站流量有很大的帮助。
  2. 按时段分析 时段分析提供网站任意时间内的流量变化情况.或者某一段时间到某一段时间的流量变化,比如小 时段分布,日访问量分布,对于企业了解用户浏览网页的的时间段有一个很好的分析。
  3. 按来源分析 来源分析提供来路域名带来的来访次数、IP、独立访客、新访客、新访客浏览次数、站内总浏览次 数等数据。这个数据可以直接让企业了解推广成效的来路,从而分析出那些网站投放的广告效果更明显。 

架构描述:Flume+Kafka+Storm+Hadoop+Hive+Hbase+Sqoop+Mysql 

责任描述:

  1. 博客网站搭建

  2. 系统架构设计

  3. 日志采集系统搭建

  4. 离线业务系统搭建

  5. Hive做离线数据处理 

项目架构描述图:

实时处理流程图:

 

 

项目中统计的指标说明:

指标

指标含义

PV

Page View 页面访问量。
两种方式来统计:
1.离线批处理统计,统计一天之内总的pv
2.实时分析
用户访问一次网站任意一页面,就算作一次PV,包括刷新也算

UV

总的独立访客数,按人头来计算,即统计有多少不同的用户数
实现思路:每个用户初次访问网站时,会为此用户分配一个全局唯一的
用户id, uvid。然后放到用户浏览起的cookie里。以后用户再次访问时,都会
携带此uvid

VV

总的独立会话数。
1.当关闭浏览器,再次打开,算作一个新会话
2.当一个会话超过30分钟未操作,再次操作,也算作一个新会话
实现思路:每当产生一个新会话,就会为其分配一个全局唯一的会话id (SSID)

BR

页面跳出率=跳出会话数/总的独立会话数
页面跳出率是衡量网站优良性的标准。跳出率越高,说明网站对于用户的粘性越低

NewCust

新增用户数,用uvid去历史数据做比对,如果此uvid从未出现过,就记为
此用户是一个新增用户数

NewIp

新增Ip数,思路同上,指标换成ip地址

AvgDeep

平均的会话访问深度=总的会话访问深度/总的独立会话数
一个会话的访问深度:浏览过哪些不同的url地址

AvgTime

平均的会话访问时长=总的会话访问时长/总的独立会话数
一般情况下,计算出时长的理论值要小于真实值,
因为最后一个页面的时长获取不到

 

 

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值