项目名称:个人博客网站日志收集分析系统
项目背景:根据用户访问情况,搜集数据,加以分析,得到有用的数据。
项目描述:
用户访问博客后,统计并收集日志信息,并对日志信息进行清洗分析
- 按在线情况分析 在线情况分析分别记录在线浏览该网站的用户的活动信息,包括:来访时间、访客地域、来路页面、当前停留页面等,这些功能对企业实时掌握自身网站流量有很大的帮助。
- 按时段分析 时段分析提供网站任意时间内的流量变化情况.或者某一段时间到某一段时间的流量变化,比如小 时段分布,日访问量分布,对于企业了解用户浏览网页的的时间段有一个很好的分析。
- 按来源分析 来源分析提供来路域名带来的来访次数、IP、独立访客、新访客、新访客浏览次数、站内总浏览次 数等数据。这个数据可以直接让企业了解推广成效的来路,从而分析出那些网站投放的广告效果更明显。
架构描述:Flume+Kafka+Storm+Hadoop+Hive+Hbase+Sqoop+Mysql
责任描述:
-
博客网站搭建
-
系统架构设计
-
日志采集系统搭建
-
离线业务系统搭建
-
Hive做离线数据处理
项目架构描述图:
实时处理流程图:
项目中统计的指标说明:
指标 | 指标含义 |
PV | Page View 页面访问量。 |
UV | 总的独立访客数,按人头来计算,即统计有多少不同的用户数 |
VV | 总的独立会话数。 |
BR | 页面跳出率=跳出会话数/总的独立会话数 |
NewCust | 新增用户数,用uvid去历史数据做比对,如果此uvid从未出现过,就记为 |
NewIp | 新增Ip数,思路同上,指标换成ip地址 |
AvgDeep | 平均的会话访问深度=总的会话访问深度/总的独立会话数 |
AvgTime | 平均的会话访问时长=总的会话访问时长/总的独立会话数 |